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第 1 章 生物 信息 学 概论 


Li 生物 信息 党 的 定义 


近年 来 在 基因组 学 (genomics) 381 41: ИА ^£ ( bioinformatics ) 领域 
BW Жж А: А UE К-КЕ ДЕЛЕ, W {ЕМ Л: ЖЕЛЕР" ЛЕ SS np I REA 
生 御 信息 学 这 一 了 术语 也 因此 走出 科学 论文 和 学术 会 议 场 台 而 成 为 从 新 
疗 媒 体 ,a 到 公司 董事 会 议定, 万 至 到 歧 治 高 峰会 谈 中 经 常 提 到 的 时 看 科 
学 词 衣 。 作 为 一 门 新 兴 的 学 科 , 生 牺 依 息 学 和 与 其 紧密 相关 的 基因 组 
学 也 无 疑 示 速成 为 最 热门 的 学 科 。 本 书 的 且 的 是 为 有 兴趣 了 解 和 有 志 
从 事 生 物 信息 学 研究 的 读者 提供 个 对 此 学 科 较 为 系统 的 介绍 

生物 信息 学 作为 - 门 新 兴 的 学 科 , 其 广 头 的 定义 泛 指 任何 与 运用 
计算 机 及 上 其 网 络 和 数据 库 进 行 大 规模 和 牛 物 学 数据 的 收集 .组 织 管 理 和 
分 析 相 关 的 研究 领域 ,而 较为 狭义 的 定义 指 用 计算 机 的 手段 和 方法 来 
对 生物 遗传 的 信息 和 数据 进行 符 理 和 分 析 。 许 多 时 候 , 生 物 信息 党 与 
计算 生物 学 ( computational biology ) 被 等 同 使 用 。 但 精确 地 说 来 ,计算 
生物 学 指 的 是 将 计算 机 系统 和 计算 机 运算 法 出 应 用 于 生物 现象 的 模型 
研究 。 生 物 信息 学 以 计算 机 技术 为 研究 手段 和 工具 ,同时 采用 数学 A 
计 学 的 模型 .模拟 研究 手法 来 解 快 生物 科学 的 问题 , 册 而 成 为 咎 牺 学 、 
统计 学 ,数学 ,计算 机 学 甚至 十 程 学 等 多 党 科 之 间 的 交叉 领域 (图 1 — 
1)， 其 发 展 一 方面 依赖 于 这 些 学 科 的 发 展 , 但 同时 台 对 这 些 学 科 棍 出 
新 的 槛 求 和 挑战 ,为 其 开辟 新 的 研究 领域 而 促进 其 发 展 。 
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1-1 生物 信息 学 与 其 他 学 科 之 间 的 关系 


1.2. 生物 信息 学 的 发 展 历史 


生物 信息 学 早期 的 研究 对 象 主要 限于 DNA. 序列 的 储存 和 分 析 , 而 其 最 近 的 迅速 发 展 主 
要 缘 于 基因 组 计划 中 大 规模 DNA 数据 管理 和 分 析 的 需要 。 其 作为 一 门 独立 的 学 科 只 有 近 
20 年 的 历史 ,而 这 一 名 词 的 准确 起 源 似乎 无 可 考证 。 但 事实 上 ， 与 生物 信息 学 相关 的 研究 
可 以 追溯 到 远 至 上 世纪 中 期 对 蛋白 质 和 DNA 结构 预测 的 模型 研究 。 为 帮助 读者 更 好 地 了 
解 生物 信息 学 的 起 源 和 发 展 历史 ,以 下 简要 列 出 与 生物 信息 学 发 展 相关 的 在 生物 学 \ 计 算 机 
学 和 网 络 技术 领域 的 重要 里 程 碑 。 

1933 年 :Tiselius 发 明 用 于 分 离 可 溶 蛋白 质 的 电泳 技术 。 

1951 年 :Pauling 和 Corey 提出 蛋白 质 的 a -螺旋 和 B - 片 层 结构 。 

1953 年 :Waston 和 Crick 根据 Franklin 和 Wilkins 的 X- 晶体 衍射 数据 提出 DNA 双 螺 旋 
结构 "。 

1954 年 :Sanger 发 表 牛 胰岛 素 的 蛋白 序列 。 

1958 年 :Texus Instrument 公司 发 明 第 一 个 整合 电路 ,美国 The Advanced Research Project 
Agency ( ARPA ) 成 立 。 

1969 年 :由 位 于 斯 坦 福 大 学 、 犹 他 大 学 、 加 州 大 学 洛杉矶 和 圣 巴 分 校 的 计算 机 相连 的 
ARPA 网 络 (ARPANET) 建成 。 

1970 年 :用 于 序列 比较 的 Needleman - Wunsch 运算 法 则 发 表 。 

1971 年 :Ray Tomlinson 发 明 电子 信函 程序 。 

1972 年 :Paul Berg 研究 组 创立 第 一 个 重组 DNA 分 子 。 

1973 年 :Brookhaven 蛋白 数据 库 ( Protein Data Bank, PDB ) 宣布 成 立 。 同 时 Robert Met- 
calfe 以 描述 网 络 卡 ( Ethernet) 的 论文 获 哈佛 大 学 博士 学 位 。 


1974 iF; Vim Cerf 和 Robert Kahn 建立 以 计算 机 相连 的 网 络 构成 的 英 特 网 (intermet ) 概 
念 和 发 展 传输 控制 方法 (transmission control protocol, TCP}; Charles Goldfarb 5 НҢ SGML 
(standardized general markup langnage) 格 式 。 

1975 年 :Bill Gates 和 Paul Allen 创立 微软 公司 (Mierosoft Corporation ) ; О` Farrell 发 表 
SDS - 聚 过 烯 酰 辽 和 等 电 聚 集 相 结合 的 二 维 电 旋 分 离 蛋 白质 技术 ; Southem 发 表 DNA 与 
DNA 的 杂交 技术 (Southem blot) 。 

1976 年 :贝尔 实验 室 发 明 Unix -To — Unix 复制 方法 (UUCP)， 

1977 年 :发 表 有 关 Brookhaven 蛋 由 数据库 的 全 面 描述 … :哈佛 大 学 的 Allan Махат 和 
Waller Gilbert 及 英国 医学 斌 究 委 员 会 的 Frederick Sanger 分 别 发 表 DNA 测序 方法 。 

1978 &£.Tom Truscott, Jim Ellis 和 Steve Bellovin 建立 第 一 个 连接 Duke 和 北 卡 太 学 的 
Usenet; 

1980 年 ;第 一 个 完整 的 生物 基因 序列 (FX174) 发 表 , 此 基因 包含 5 386 A" F ОШ М. 
对 ,编码 9 个 蛋白 质 ; Wuthrich 等 发 表 多 维 NMR 蛋白 结构 测定 技术 的 详细 描述 ” ; Intelli 
Genetics ЗЕЛ Н РЕЯ DNA 序列 分 析 的 InteliGenetics 软件 包 。 

1981 年 :用 于 序列 比 对 的 Smith — Waterman 运算 法 则 发 表 ;TRM 公司 向 市 场 推出 个 人 计 
FUL, 

1982 年 ; Wsiconsin 太 学 生物 工程 中 心 属 下 的 遗传 计算 组 Genetics Computer Group 
(GCG) 上 成立, 其 主要 产品 是 有 名 的 ССС 分 于 生物 学 计算 丁 有 具 。 

1984 Е: Macintosh 公司 的 芋 果 计算 机 问世 :Jon Postel 的 Domain Name System ( DNS) FF 
RER KEH. 

1985 ^E: FAST, 序列 分 析 运 算法 则 发 表 ;Kary Mallis MEFE 2 BE 22 M8 ipis 52 u: poly- 
merase chain reaction, PCR), 

1986 年 :Thomas Roderick 首次 使 用 基因 组 学 (genomics) 作 为 RIBERA m PHOT XR 
有 美 基 因 组 物理 构图 . 译 列 调 定 和 分 析 基 央 的 学 科 ; 昌 内 了 蕊 大 学 和 欧洲 分 子 生 物 学 实验 室 
( EMBL) 创立 SWISS - PROT 蛋白 序列 数据 库 。 

1987 4С. ЕЕ À. T u fa D ( yeast artificial chromosome,YAC) 的 使 用 被 发 表 “ ;大 肠 杆菌 
的 物理 图 谱 被 发 表 丫 ; 麻 省 建 工学 院 的 Lamy Wall 倒立 PERL i8 ( practical extract report 
language), 

1988 年 :美国 国立 卫生 研究 所 下 属 的 国家 咎 物 工 程 信息 中 心 (Nakional Center for Bio- 
technology Information ,NCRT 各 欧洲 生物 信息 学 研 5t PR ( European Bioinformatics Institute, 
EBD 成 立 ;Pearson 和 Lupman 和 发表 [ASTA 运算 法 则 。 

1990 年 ;人 类 基因 组 计划 开始 ,计划 用 30 亿美 元 的 预算 在 15 年 的 时 间 内 完成 人 类 30 
亿 碱 基 对 的 浏 序 和 基因 确定 ;BLAST 程序 建立 ; Tim Berners - Lee 发 表 第 一 份 HTML 文件 。 

1991 i: EA AMAA CERN r fa sË sr HET 7; PEP (World Wide Web, 下 WW) 的 规程 ; 
Linus Torvalds 115 Jr 3E 25 EINUX 的 类 UNIX 操作 系统 ;Craig Venter 在 Science 2; EHA 
yb ae AK FP IERE ( expressed sequence tag, EST) [К r HHE HIP ， 

1992 年 :Craig Venter 不 美国 马里 兰州 成 立 基 因 组 研究 所 (The Institute of Genome Re- 
search, TIGR.) ,成 为 细菌 基因 组 测序 研究 的 先驱 ;Mel Simon 和 同事 宣布 细菌 人 工 染 色 体 


( bacterial artificial chromosome, ВАС) DNA 克隆 中 的 应 用 

1994 4r. . Bj Et 7 H] ( Netscape ) IS, ЗУ. , Az A [9] £83 йк Navigator. 

1995 年 :微软 公司 发 布 第 一 版 Interoet Explorer (IE); 太阳 (SUN) ñ B] 38 2 PJ 
( Netscape ) 联合 发 布 第 —1% Javascript; Ed] SERVER 程序 APACH 被 发 布 ;TIGR 使 用 其 创立 
Йй ЖАП 5 ( моіе genome shotgun, WCS) SE Е ТЕ ПА АНТА lk ЗУ k P Rh A pši 
基因 组 ,标志 着 基因 组 时 代 的 开始 。 

1996 4E, W3C 公司 发 布 初级 XML 版本; 第- -个 真 核 生 物 基 术 组 一 一 面包 了 酵 填 的 测序 开 
始 ; Bairoch эн Prosite 数据 库 ;Affymetrix 推出 第 一 代 基 因 必 片 (DNA Chips), 

1997 年 :第 -个 实验 异 式 生物 - CRAFT PREISE DER SERE E. 

1998 iF. ARR EP eR 

2000 年 :第 - -个 植物 拟 南 共 基因 组 利 果 蝇 基 内 组 完成 

2001 +: 国际 人 类 基因 协作 组 和 Craig Venter 领导 的 Celera 公司 分 别 在 《月 然 》 я 
学 》 杂 志 同 时 发 表 人 类 基因 组 草图 | ， 

2002 ЕЛУЙ, KEERA ЛЕВ AF312222. 

2003 年 :人 类 基 央 组 计划 完成 。 

从 以 上 生物 信息 学 发 展 史 可 以 看 出 ,其 发 展 与 计算 机 及 网 络 技术 的 发 展 紧密 相连 。 其 
中 最 为 关键 的 包括 计算 机 速度 .出 存 容重 CURAR fr ЖЕЕ И НЫШ E a, ТАЧ 2 ЖИИ ЗЕ Т. 
内 的 发 展 。 事 实 上 存 过 去 的 10 年 中 ,计算 机 的 计算 速度 和 生物 数据 的 信息 时差 不 多 以 指数 
W EHH S. 


1.3 生物 信息 党 的 芋 要 研究 领域 .基本 问题 和 方法 


日 前 的 生物 信息 学 研究 ,已 从 早期 以 数据 库 的 建立 和 DNA 序列 分 析 为 主 的 阶段 ,转移 
到 后 基因 组 学 时 代 以 比较 基因 织 学 (cormparative genomics) .功能 基因 组 学 {functional genom- 
ins) 和 站 合 基因 组 学 (integrated genomics) 为 中 心 的 新 阶段 , 生物 信息 学 的 研究 领域 也 迅速 
扩大 。 以 下 简要 归纳 当前 生物 信息 学 研究 中 的 基本 问题 , 本 世 的 其 他 章节 将 对 其 中 大 多 数 
的 间 题 分 别 进行 详细 讨论 ， 


1.3.1. 生物 学 数据 库 的 建立 和 搜寻 

生物 学 数据 亩 贮存 生 物 信息 学 倒 究 的 原始 数据 ,是 生物 信息 党 存在 和 和 发展 的 基础 。 从 
Dayhoff Hg 20 世纪 60 年 代 建 立 第 一 个 已 知 蛋 白质 序列 的 分 子 生物 学 数据 库 到 今天 
经 历 『 突 飞 猪 进 的 发 展 。 吕 年 代 GenBank .EMBL{ European Molecular Biology Laboratory) 利 
DDBJ( DNA DataBank of Japan) 以 DNA 序列 为 主 的 世界 二 大 标准 数据 库 的 建立 为 分 子 生 物 
学 数据 库 的 发 形 竟 定 了 基础 ,并 发 挥 了 核心 作用 。 计 算 机 网 络 的 发 展 与 迅速 普及 和 使 用 极 
大 地 种 进 了 数据 库 的 发 展 ,并 保证 其 数据 为 广大 的 用 户 方便 地 夕 取 ,而 计算 机 储存 媒体 的 发 
黑 和 储存 量 的 快速 增长 满足 了 生物 数据 指数 增长 对 储存 媒体 的 需求 其 中 间 样 关键 的 是 头 
系数 据 库 技术 (relational database ) 的 发 展 促进 了 对 数据 库 的 使 用 。 多 年 前 在 所 有 的 分 子 生 


ЖІ E: $e fm А D. канааа наст лз TETTETETT CEEE 


V ese RARE As Р vr Ж — БАНЕ, ЖЕЛИ И 2 z< BJ TIEA ТЕЛЕ SX e e BI PCNA fE 
到 GenBank EMBL 或 DDBJ 中 的 任何 一 个 数据 库 并 获得 -个 统 - ImIESUXERUS BS ( ассев- 
sion number) 。 这 对 分 子 生 物 学 厅 列 数据 的 林 准 化 和 保证 数据 库 所 舍 数 据 的 公升 起 到 关键 
的 作用 。 目 前 这 一 大 数据 库 实 行 每 天 进行 数据 手相 交换 ,使 得 3 个 数据 库 所 包含 的 核心 数 
据 相 同 , 极 大 他 六 便 了 有 上 用 户 对 数据 库 的 使 用 。 

初期 的 数据 亩 以 单纯 DNA 和 蛋白质 序 列 为 主 ,每 一 个 数据 条 日 仅 包 会 文件 名 和 厅 列 。 
但 这 些 数 据 库 大 多 都 已 扩展 色 包 含 与 序列 相关 的 多 种 信息 ,包括 巧 能 .突变 A y RE 
HATASSAL T. PRAWI DNA 利和 蛋 向 质 序列 数据 库 外 ,还 有 本物 人 分 于 三 维 结构 数据 
EC PDR) .文献 数据 库 ( 如 PubMed) ,与 生物 学 有 关 的 知识 数据 库 ( 如 KEGG 和 Gene On- 
tology) 帮 基 因 组 数据 库 等 多 种 类 型 ， 其 中 以 包含 多 种 数据 类 型 的 综 台 型 数据 库 为 今后 的 发 
展 重 点 。 像 UCSC 的 基因 组 浏览 器 就 是 这 一 类 型 的 很 好 例证 。 它 集 序 列 .多 种 基因 注解 . 比 
PEHA .功能 基因 组 和 许多 其 他 数据 类 型 上 一体. 这 类 数据 库 通 常 共 备 方便 的 图 形 界 面 ， 
便于 不 具备 生物 信息 学 技能 的 : 般 用 户 使 用 。 亿 建立 这 类 数据 库 杰 求 对 多 种 数据 类 型 进行 
有 效 的 整合 ,其 中 不 仪 需要 考虑 如 何 建立 数据 之 间 的 联系 ,也 对 相关 的 软件 技术 北 发 提出 新 
的 挑战 ， 

数据 格式 的 建立 ,数据 的 准确 性 和 质量 控制 ,方便 的 数据 搜寻 方式 以 及 数据 的 及 时 更 新 
是 数据 库 建 立 和 维持 中 的 重要 问题 ,提前 最 为 成 功利 使 用 最 广 的 序列 数据 提 卡 系统 当 首 推 
NCBI 的 ENTREZ 3&5 ( http://www. ncbi, nlm. nig. goe/Entrez/) A 外 ,为 达到 数据 库 搜寻 
的 最 沿 效 率 , 数 条 库 中 数据 的 重复 必须 达到 最 低 水 平 、 但 烛 真 正 做 到 没有 数据 重复 有 较 大 
的 难度 。NCBI 中 的 囊 白 质 序列 数据 库 nr( non - redunant) 就 是 这 类 数据 库 。 俱 事实 上 这 个 
数据 库 已 经 包含 相当 多 的 重复 序列 。 另 外 ,还 有 为 数 不 少 的 非 完整 夺 列 的 继续 存在 。 而 写 
其 相应 的 DNA 序列 数据 库 nt (ТЕ NCBI 的 BLAST 网 页 虐 为 oy) 已 时 就 公布 不 再 是 韭 重复 的 
三 。 用 户 在 使 用 这 类 数据 库 时 有 必 业 了 解 这 些 情 况 ,才能 对 搜寻 结果 作出 止 确 判断 。 

尽管 数据 库 的 建立 不 崩 基 当前 生物 信息 学 的 焦点 ,但 对 现 有 数据 库 的 扩展 .维护 仍然 非 
常 蜂 又 。 与 此 同时 ,开发 新 型 数据 库 ,研究 效 数据 格式 和 类 型 .促进 数据 交换 和 提取 也 提 
常 关 键 。 有 关 生 物 信息 学 常用 数据 库 的 介绍 和 使 用 请 参考 本 书 第 4 ve. 


1.3.2 DNA 和 和 蛋白质 的 序列 分 析 

在 现 有 的 序列 数据 库 中 找 出 与 用 户 序 列 相同 或 相近 序列 ,可 以 提供 与 此 序列 特征 和 功 
能 相关 的 重要 信息 .小 此 的 问题 是 DNA 和 和 蛋白 质 序列 相似 性 的 分 析 :， 其 中 重 白质 的 相似 性 
分 析 因 涉 帮 不 同 氨基 酸 的 结构 和 功能 的 影响 不 同 而 远 比 DNA 的 序列 分 析 来 得 复杂 。 序 列 
相似 性 分 析 是 生物 信息 学 最 里 所 涉及 的 问题 ,也是 现今 生物 信息 党 研究 中 的 日 常 芽 作 之 …。 
由 开 数 据 库 的 数据 其 日益 增 长 ,其 中 主 就 的 计算 问题 是 找到 一 种 快速 而 朋 敏 的 计算 机 运算 
法 则 ,可 以 说 以 Needleman ~ Wunsch 和 Smith — Waterman 为 代表 的 运算 法 则 较为 满意 地 解 
决 『 这 一 问题 ,但 对 于 新 的 运算 法 则 的 发 展 仍 然 十分 扎 切 ,以 满足 数据 库 快速 增长 和 大 规模 
序列 分 析 所 提出 的 新 要 求 ，NCBI 的 BLAST 中 现今 序列 相似 性 分 析 中 使 用 最 广 的 凋 用 工 
具 。 除 此 之 外 ,还 有 最 近 幢 David Haussler 和 Jim Kent 领导 的 UCSC 研究 组 所 创立 的 BLAT 
方法 ,以 极其 快速 的 优点 而 在 其 基 兴 组 浏览 器 中 得 到 成 功 的 应 用 。 有 关 DNA 和 和 蛋白 重 序 列 
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分 析 的 详细 内 容 请 参考 本 书 第 5 章 。 


1.3.3 基因 结构 的 预测 

预 浏 一 段 DNA 序列 或 一 个 物种 的 基因 组 序列 中 具 休 哪些 区 域 代 表 用 于 编码 疏 白 质 的 
功能 某 内 是 生物 信息 学 研究 中 的 另 … 经 典 问题 。 机 对 而 言 ,原核 后 物 基 因 的 预测 较为 简单 ， 
因为 原核 基因 没有 内 含 子 ,因而 只 需 寻 找 达 到 一 定 长 度 向 具有 起 始 密 码 的 开放 阅读 框 (open 
reading frame, ORF) 。 其 中 较为 复杂 的 情形 包括 : 同 -转录 子 编 码 多 个 代 白 ;不 同 的 基因 间 
相同 方向 或 相反 方向 互相 重合 等 。 尽 管 加 此 ,可 以 说 ,我 们 对 于 原核 基因 组 中 的 基因 预测 ， 
已 经 获得 较为 满意 的 成 就 。 然 而 , 真 核 生 物 基 因 因 为 有 内 含 子 和 外 显 子 之 分 ,加 之 选择 性 转 
录 本 的 存在 ,其 基因 结构 的 预测 成 为 生物 信息 学 研究 中 的 一 大 挑战 。 其 中 的 难点 之 一 为 外 
显 子 和 内 合子 交界 位 点 的 确定 ,而 第 一 个 包含 启 始 编码 子 的 外 显 子 的 预测 难度 为 最 大 。 现 
有 的 预测 方法 通常 借助 于 已 知 蛋 口 质 序列 的 比 对 CDNA - 88 АЛЕ), SD I cDNA 及 表 
IEF PIIR (EST) 的 比 对 (DNA - DNAO ,及 相近 物种 基因 组 序列 间 的 比 对 (在 翻译 上 的 
DNA -DNA 比 对 )。 除 此 之 外 ,预测 方法 利用 已 知 基 因 结 构 序 列 进 行 训 练 ,采用 包括 神经 网 
£f neural network ) ЖЕ HMM ( Hidden Markov Model) 在 内 的 机 器 学 习 喇 言 来 识别 外 显 子 ,尤其 
是 外 显 了 与 内 含 子 交 者 区 域 序列 模式 特征 ,已 经 取得 了 长 是 的 进展 ,产生 了 包括 FGENES, 
GeneFinder , GeneMark .CeneParser 、GenScan 及 First EF 等 在 内 的 一 系列 预测 直 核 生物 基因 的 
软件 工具 。 然 而 ,所 有 这 些 称 为 ab iniio【 意 为 从 头 睛 始 ,预测 不 直接 依赖 实验 和 其 他 数据 ) 
的 预测 方法 ,其 准确 率 均 不 超过 75% .而 对 第 … 个 外 亚 子 的 预测 准确 率 最 低 。 真 核 咎 物 基 
因 预 测 的 号 一 难点 是 许多 基 网 利用 多 种 可 能 的 外 显 子 进行 不 同 的 弓 合 获得 不 同 的 基因 表 还 
产物 ,这 是 真 核 牛 物 利用 有 限 的 基因 组 产生 复杂 的 基因 功能 ,达到 适应 相同 发 育 、 生 理 及 环 
境 旬 件 的 一 种 有 效 途 径 。 我 们 目前 对 上 什么 册 素 控制 或 操纵 不 同 外 显 子 的 选择 仍然 知之 其 
少 。 很 显然 ,这 “研究 领域 中 可 提高 和 完善 的 空间 还 很 大 。 这 不 仅 有 待 于 发 展 更 管 能 化 的 
运算 法 则 ,也 依赖 于 我 们 对 于 包括 RNA 剪接 在 内 的 许多 真 核 生 物 基 本 现象 的 进一步 认识 。 


1.3.4 和 蛋白质 结构 和 功能 的 预测 

到 目前 为 下 ,尽管 已 知 的 重 白质 序列 已 过 百 万 计 , 但 结构 已 知 的 仍 为 少数 。 到 写 稿 为 
止 , 储 存在 蛋白 结构 数据 库 РОВ 中 的 条 目 不 过 2 万 左右 。 因 此 结构 已 知 的 蛋白 质数 日 仍 只 
上 汕 已 知 序列 蛋白 质 总 数 的 2 名 不 到 。 其 原因 在 于 测定 蛋 岂 质 的 结构 需要 使 用 非常 瞧 时 利 昂 
贵 的 特殊 方法 ,如 针 — it He 8] oi Ek k He ie ( nuclear magnetie resonance, NMR) 。 很 显然 , 仪 
仅 依 靠 实验 的 方法 很 难 测 定 所 有 已 知 蛋 白质 的 结构 。 因 而 ,根据 蛋白 质 的 一 级 结构 来 预测 
其 高 级 结构 ,包括 预测 蛋白 质 间 的 相互 作用 .和 蛋白质 与 受 体 和 药物 的 作用 等 ,具有 很 大 的 应 
用 价值 。 党 白质 在 被 合成 时 为 线 状 氨基 酸 肽 链 ,然后 链 的 不 同 区 城 形 成 包括 螺旋 (a — he- 
lix) , 片 层 (B - sheet) PERIT. turn loop) 在 内 的 二 级 结构 :. — 2 TL TE: H. AH E = JÉ; ES EE 
Th. SRI DIE (folding) 9455 — Ne e Uü 2k (5) 6 c CE DT Je LE P BB Dk ani dt 
与 水 和 其 他 分 子 相 作 册 的 极 性 氨基 酸 留 在 表面 。 -级 结构 引导 折 秋 的 过 程 ,其 中 有 了 时 需要 
РЕЗ EL chaperone) 的 帮助 。 我 们 目前 已 经 积累 了 相当 数量 的 已 知 蛋白 质 结 梅 ,因而 可 以 
采用 计算 的 方法 来 找到 或 预测 哪些 序列 当 己 卯 结构 具有 相似 的 结构 团 { structural fold , 指 的 
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是 通过 相似 的 折 到 连接 的 相同 二 级 结构 方式 )。 对 已 知 重 白 结 构 的 统计 分 析 表 明 , 掉 白 硕 
结构 团 上 只 有 有 限 的 约 500 种 不 同 的 类 型 ,上 打 现 有 的 已 知 结构 已 经 包括 自然 寞 所 在 在 的 己 白 
结构 的 90% 以 上 。 其 中 的 原因 可 能 是 蛋白 质 折 肥 过程 中 化 学 的 限制 或 是 蛋白 质 结构 存在 
单一 的 进化 途径 。 由 于 序列 不 同 的 借 魏 质 可 以 具有 相同 的 结构 ,这 使 得 下 生 质 结 枸 的 项 测 
难度 增加 。 

新 型 的 党 白 结 构 预 测 方法 采用 复杂 的 统 汁 和 机 器 蔡 习 方法 ,其 准确 率 在 逐 东 地 提高 。 
现 有 的 预测 方法 对 于 较 小 的 分 子 ( <300 氨基 酸 ) 的 结构 预测 已 经 有 相当 高 的 成 功率 ,但 对 
于 包含 多 个 结构 域 的 大 分 子 的 预测 则 仍然 相当 困难 。 这 - :领域 新 近 的 进展 包括 根据 一 级 结 
构 把 蛋白质 分 成 不 同 的 家 族 , 然 后 用 统计 的 方法 来 找到 每 - -个 家 族 特定 的 共同 模式 ( con- 
sensus pattern), Æ 书 将 在 第 6 章 深 入 讨论 结构 分 析 利 相关 数 据 库 ， 


1.3.5 基因 组 数据 的 分 析 

出 于 过 去 10 年 肉 太 规模 下 业 化 自动 基 风 测序 技术 的 发 展 和 不 断 成 熟 , 捧 之 全 基因 组 鸟 
枪法 (whole genome shotgun) 在 基因 测序 上 的 成 功 应 用 ,使 得 基因 组 的 测序 速度 得 到 迅速 提 
高 。 以 目前 最 先进 的 说 备 和 技术 ,一 个 细菌 基因 组 测序 的 全 部 过 程 可 以 在 一 局 肉 完成 ,而 一 
个 平均 大 小 的 高 等 真 校生 物 基 因 组 也 可 在 ] ~2 年 内 完成 。 相 信 在 不 远 的 将 来 , 随 着 新 技术 
的 放生 ,其 中 人 包括 纳米 技术 的 应 用 ,基因 组 测序 的 速度 将 进一步 加 快 ,成 本 将 成 信 下 降 。 很 
有 可 能 会 实现 最 近 有 人 提出 的 千 芝 人 类 个 人 基因 组 测序 的 设想 。 天 旺 基 因 组 序列 的 测算 ， 
对 生物 信息 学 提出 新 的 挑 成 。 其 中 包括 如 何 提高 基因 组 组 装 的 效率 和 准确 性 ,如 何 有 效 地 
储存 .显示 基因 组 的 数据 和 相关 信息 ,以 及 如 何 发展 新 的 软件 工具 .新 的 运算 法 则 来 比较 大 
量 的 基因 组 数据 。 有 关 基 因 组 测序 ,组装 和 分 析 的 过 程 请 参考 本 市 第 3S. 


1.3.6 比较 基因 组 和 系统 发 生 址 传 学 分 析 

大 量 基 因 组 序列 的 完成 ,给 我 们 提供 了 空前 多 的 DNA 数据 。 对 于 不 同 物种 基因 组 的 比 
较 分 析 称 为 比较 基因 组 学 (comparative genomies) 。 它 是 基因 组 学 领域 里 最 强 有 力 的 .也 最 
具 挑 战 性 的 研究 方法 。 其 研究 的 着 眼 点 包括 :序列 的 保守 与 差异 .基因 组 的 辣 构 .基因 与 划 
因 疝 物理 位 痢 的 作 守 . 非 编 码 DNA 的 数量 和 种 类 差异 等 。 通 过 将 人 类 基 国 组 与 小 腿 及 其 他 
模式 动物 基因 组 的 比较 , 极 天 地 增进 了 我 们 对 人 类 基因 组 中 功能 基因 的 了 解 。 通 过 比较 性 
病 靖 各 同一 物种 非 致 病 获 的 基因 组 ,可 以 了 解 其 致 病 的 机 制 ,便于 发 展 控制 禾 病 细菌 忧 染 的 
新 方法 .新 疫苗 和 新 药物 ， 对 于 同 .-- 物 种 中 不 同 个 体 基 因 组 的 比较 ,可 以 全 面 地 观测 群体 中 
的 个 使 差异 fpolsmorphism ) 或 多 样 性 。 利 用 基因 组 数据 来 研究 物种 癌 的 进化 关系 和 系统 发 
生 , 可 以 训 服 重用 单个 基因 所 存在 的 片 商 性 ,能 够 从 整个 基因 组 的 水 平 上 来 更 为 全 面 地 理解 
物种 的 进化 关系 及 基因 组 演变 的 规律 。 因 而 ,比较 基因 组 学 将 是 生物 信息 党 中 今后 的 发 展 
重点 ,， 与 单个 或 多 个 基因 的 序列 比较 不 同 ,基因组 间 因 所 涉及 的 信息 量 常 稼 是 单 基 因 信 息 
量 的 上 和 王 倍 .甚至 上 万 人 悦 ,而 对 所 用 工具 和 计算 机 的 内 存 和 速度 都 提出 更 高 的 要 求 。 本 ERR 
З 8 章 将 分 别 阐述 有 关上 比较 基因 组 学 和 进化 遗传 学 的 相关 知识 ， 
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1.3.7 功能 基因 组 和 和 蛋白 组 学 数据 的 分 析 

基因 组 的 完成 给 基因 表达 的 研究 带 来 了 最 为 深远 的 革命 : 后 基因 组 时 代 的 刘 来 使 得 生 
物 学 的 研究 重点 从 以 前 的 以 DNA 测序 为 主 转 称 到 以 系统 了 解 基因 组 内 所 有 基因 的 生物 学 
XI SEBDUI GE AE HHH ( functional genomics) 为 中 心 。 以 DNA 芯片 技术 为 代表 的 新 技术 能 把 … 
个 基因 组 中 所 有 的 基因 安放 在 一 张 小 小 的 玻璃 片 上 ,因而 ,个 得 我 们 可 以 同时 全 宪 所 有 基因 
的 表达 ,从 而 从 整个 基因 组 的 水 平 上 来 研究 基因 的 表达 。 从 DNA dH hyr il i PEE 
分 析 ,到 根据 基因 的 表达 谱 来 进行 分 类 和 组 台 , 我 到 与 表 型 相关 的 基因 ,都 包 人 省 统计 生物 信 
息 学 方法 的 应 用 ,， 轩 为 重要 的 是 根据 基因 仿 片 的 分 析 结 果 , 将 其 与 已 知 的 基因 和 所 有 相关 
及 相 伺 的 多 种 数据 进行 整合 ,对 涉及 的 基因 基因 调节 .信号 和 代谢 途径 进行 预测 和 模 增 研 
容 。 有 闫 基因 起 片 数 据 分 析 的 详细 介绍 请 阅读 本 书 第 7 Зу 10 EL 

ЖАЯ C proteomies) 以 一 个 细 胸 或 一 个 物种 所 具 有 的 全 部 滞 白 质 为 研究 对 象 , 尽 管 日 
前 由 了- 技术 的 限制 ,无 法 进行 副 和 白质 的 大 规模 测序 分 析 , 其 大 究 的 广 讶 和 深度 仿 然 有 限 。 但 
蛋白 组 代表 基因 组 表达 的 最 后 结果 和 效果 ,与 基因 和 组 网 功能 惠 加 直接 相关 、 国 此 ,将 会 是 
今后 发 展 的 重点 之 一 、 其 中 主要 的 生物 信息 学 向 题 是 如 何 有 效 业 根 痢 省 白质 的 分 子 质量 和 
等 电 点 等 物理 化 学 特征 ,以 及 蛋白 质 质 谱 分 析 Le REGIS ECT (peptide mass fingerprinting) ^ 
技术 获得 的 结果 ,结合 已 知 的 基 央 组 数据 来 预测 每 -重唱 分 离 样品 的 实际 身份 。 


1.3.8 信号 传导 .代谢 和 基因 调节 途径 的 构建 与 描述 

绍 胞 内 的 基因 利和 蛋白 质 都 不 是 独立 行使 芭 能 。 重 月 间 互 相 作 用 ,基因 闻 ABA ,形成 
-hiie EFI .代谢 途径 及 细胞 阿 的 巨 相 作 用 等 组 成 的 极其 复杂 和 徽 损 精巧 的 
网 络 来 完成 一 个 细胞 的 生物 功能 。 过 类 ,我 们 对 和 牛 物 现象 的 认识 和 本 解 大 多 仍 局 限于 单个 
基因 (和 蛋 [ 于 ) 或 单个 信 臣 传导 或 代谢 途径 范畴 十 -种 静态 的 理解 。 基 因 组 时 代 和 后 基因 组 
时 代 的 到 来 .不 仪 让 我 们 请 楚 地 认识 到 从 系统 和 整体 水 平 土 来 理解 细胞 功能 的 重要 性 ,同时 
也 第 一 次 使 得 在 这 一 水 平 上 的 研究 成 为 可 能 。 千 物 信 息 学 今后 的 一 大 性 务 就 是 根据 比较 基 
因 组 学 .功能 基因 组 党 .蛋白 组 学 研究 的 结果 ,结合 我 们 从 实验 年 笔 学 积 宗 的 所 有 生物 学 数 
据 来 构建 完整 的 代谢 途径 及 与 基 内 调节 和 各 类 信号 传导 丰美 的 网 络 系统 , 包 共 了 解 它们 之 
打 的 相 折 征用 ， 更 具 挑 战 性 的 是 如 何 有 效 地 表示 和 利用 这 类 人 赋 究 的 结果 和 对 生物 现象 在 整 
体 和 系统 水 平 上 进行 模拟 研究 ,提出 新 的 理论 和 学 说 。 


1.4 ”生物 信息 学 今后 的 发 展 方 辕 和 趋势 


人 类 基 央 组 计划 的 完成 标志 着 基因 组 时 代 进 入 高 潮 和 后 基因 组 (post - genome) 时 代 的 
到 来 。 刘 目前 为 止 , 上 千 种 病毒 基因 组 和 近 百 种 组 菌 基因 组 及 煞 十 种 真 核 生物 基因 组 的 测 
序 已 完成 ,更 多 的 物种 被 列 入 基因 组 测序 的 计划 之 中 ,。 史 多 详细 的 有 关 人 类 基因 组 测序 工 
程 计划 过 程 和 包括 其 他 物种 在 内 的 基因 组 测 序 进 程 请 参考 本 书 第 3 章 。 与 基 内 组 生物 信息 
^£ (genome informatics) 不 同 ,后 基因 组 生物 信息 学 以 从 基因 组 信息 获取 的 生物 学 知识 来 了 
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能 基因 组 由 以 基 内 芯片 和 其 他 高 通天 (highthroughpnt) 技 术 为 基础 的 系统 实验 学 相连 ,但 生 
物 伟 息 学 无 疑 将 在 实验 设计 和 预计 中 起 着 更 为 主导 的 作用 。 

大 量 牛 物 物 种 基因 组 序列 的 完成 和 分 析 及 生物 信息 学 研究 所 带 来 的 新 型 研究 手段 和 成 
有 果 下 在 迅速 地 改变 生物 医学 的 研究 方法 。 其 中 最 显著 的 一 个 音 党 性 的 改变 就 是 及 癌 壮 传 学 
(reverse genetics) 研究 策略 的 诞生 和 大 量 使 用 。 经 典 的 遗传 学 钙 究 是 从 特定 的 生物 表 型 于 
始 , 通 过 包括 定量 性 状 位 点 (QTT,) 和 细胞 遗传 学 在 内 的 多 种 实验 方法 来 对 相关 的 基因 进行 
粗略 的 定位 ,然后 再 通过 分 子 生物 学 的 方法 ,如 定位 克隆 ( positienal cloning) „ЛЕ BE (sed- 
al deletion) 等 方法 ,从 数 十 乃至 上 百 个 候选 基因 中 逐 - -验证 ,确定 具体 电 个 基因 与 所 观 济 
的 表 型 相关 。 这 类 传统 的 研究 方法 周期 长 ,花费 人 ,而且 依赖 于 能 观测 到 的 表 型 ,内 此 很 难 
了 了解 基 因 组 中 所 有 基因 的 总 数 下 其 功能 .物种 基因 组 的 完成 从 理论 于 把 一 个 物种 所 有 的 基 
因 邦 呈现 条 分 子 牛 物 学 家 面前 ,从 而 可 以 采取 所 请 的 反 向 遗传 党 的 研究 策略 , 即 从 基因 到 表 
型 的 途径 ,这 接 对 其 下 物 功 能 进行 妍 究 。 许 多 情形 下 基 内 的 功能 可 以 通过 生物 傍 昌 学 的 研 
究 方 法 来 预测 ,实验 研究 的 目的 在 许多 情形 下 只 是 证 实 预 测 的 功能 ， 而 在 其 他 的 情形 ,生物 
信息 学 为 实验 生物 学 的 设计 提供 信息 和 思路 ,缩小 研究 的 对 得 。 因 调 , 我 们 对 基因 功能 的 研 
究 进 程 将 大 大 加 快 。 与 此 同时 ,生物 信息 学 研究 将 根据 比较 基因 组 学 ,功能 基因 组 学 等 分 支 
学科 的 俩 究 成 果 , 运 用 大 规模 高 度 复 杂 和 智能 的 数学 统计 模型 ,从 整体 和 系统 的 水 六 上 对 生 
物 学 的 现象 提出 大 量 新 的 理论 和 学 说 。 而 对 于 这 些 学 说 和 理论 的 验证 将 会 把 实验 生物 学 排 
问 - -个 新 的 高 度 ,使 生物 学 的 研究 进入 到 系统 生物 学 (systems biology) 的 新 时 代 - 因此 ,我 
们 有 充分 理由 相信 ,生物 信息 学 将 在 21 世纪 里 继续 得 到 迅速 的 发 展 ,包括 与 纳米 技术 相 结 
合 ,从 而 对 站 物 医学 产生 深远 的 革命 性 影响 。 


1.5 生物 信息 党 家 应 具备 的 基本 知识 和 技能 


正如 前 面 所 述 , 小 物 信息 学 涉 太 生物 学 .计算机 学 、 数 学 ,统计 学 等 多 门 学 科 , 从 事 
人 生物 信 息 学 研究 的 工作 者 或 生物 信息 学 家 ( bioinformatician 或 bioinformaticist ) п À UJ 
土 任何 - 个 领域 而 体重 于 生物 信息 学 的 不 同方 面 。 事 实 土 ,我 们 今天 正 调 要 有 具 符 各 种 背景 
知识 ,才能 和 研究 思路 的 研究 人 员 ,集思广益 来 共同 面 对 生物 信息 学 给 我 们 带 来 的 这 忠 无 前 
例 的 挑战。 然而 作为 一 个 生物 信息 学 的 工作 者 ,也 必须 具备 -… 定 的 基本 知识 和 技能 ,具体 如 
Fe 
(1) 其 种 相当 程度 的 分 子 生物 学 缘 景 知识 ,可 纪 基 其 中 的 某 -方面 ,比如 生物 化 学 .分 
T 后 物 学 .分 子 物理 学 或 是 分 子 模型 ,但 起 码 要 能 理解 分 子 生 物 学 的 中 心 法 则 。 用 于 后 
物 信息 学 归根 到 底 是 一 门生 物 学 科 , 它 的 研究 最 终日 的 是 回 符 生物 学 的 问题 。 要 编写 
一 个 很 好 的 生物 信息 学 软件 工具 ,在 具备 必要 的 计算 机 技能 的 同时 ,也 必须 理解 所 要 解决 的 
生物 学 问题 。 进 - 步 而 言 , 真 止 有效 的 生物 信息 学 研究 应 当 是 带 着 和 牛 先 学 的 问题 去 寻求 计 
算 生 物 学 的 解决 户 法 。 本 书 的 第 过 章 为 缺少 生物 学 背景 的 读者 介绍 分 子 生 御 学 .遗传 学 各 
细胞 生物 学 的 基本 概念 。 
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(2) paz mn a E PR f ELTE RU RC CS RU Hir fr TL, BLAST,CLUSTAL,HMM X + 
要 基 内 组 浏览 器 等 的 基本 序 理 ; 常 几 数 据 库 的 结构 .类 型 和 基本 数据 内 容 ; 主 要 生物 信息 学 
网 站 ,如 NCBEEBI 等 的 内 容 。 应 当 熟 悉 和 掌握 至 少 一 两 神主 要 分 子 生物 学 软件 包 的 使 甩 ， 
可 以 是 序列 分 六 或 分 子 模 型 。 虽然 如 下 文 将 提 到 的 ,生物 信息 学 家 需要 有 一 定 的 编程 能 旋 ， 
但 实际 工 对 于 许多 常规 的 数据 分 析 , 已 有 不 少 现 成 的 软件 C 有 具 ,。 上 比如 用 于 序 到 分 析 的 ССС 
fi VECTOR NTI 软件 包 。 本 书 不 同 章节 中 将 较为 详细 地 介绍 常用 的 生物 信息 学 软件 。 束 悉 
一 种 软件 的 使 用 将 有 助 于 学习 其 他 类 和 似 的 软件 。 此 外 ,最 好 能 理解 常用 生物 统计 中 的 概率 
论 藉 理 及 能 使 用 一 些 常用 的 统计 软件 ,包括 从 最 简单 的 ( 如 微软 的 EXCEL) 到 复杂 的 {如 
Š + „Sigma Plus, SPSS,SAS 等 ) 。 有 兴趣 和 和 条件 的 读者 可 阅读 参 苦 文献 所 列 的 几 本 介绍 生物 
信息 学 基本 内 容 及 着 重 于 序列 分 析 的 参考 书 ”"。 

(3) 应 当 适 应 在 使 用 命令 行 的 计算 机 环境 下 工作 。 使 用 Unix 或 Linux 平台 便 可 提供 
这 一 方面 的 经 验 。 由 于 最 早 的 大 中 型 计算 机 都 是 使 用 Unix 操作 系统 , 绝 大 多 数 用 于 计算 牛 
物 学 的 软件 工具 是 为 Unix 所 罕 。 这 些 软件 通常 对 计算 机 硬件 有 产 格 的 要 求 ,因而 无 法 在 个 
人 计算 机 上 使 用 。 车 实 上 ,相对 在 个 人 计算 机 上 使 用 的 操作 平台 而 吝 ,包括 微软 会 司 的 视窗 
和 苹果 公司 的 MAC 操作 系统 ,Unix 对 于 生物 信息 学 的 研究 有 具有 许多 的 优点 。 其 中 以 其 可 
瘾 性 好 .使 于 自动 化 .软件 发 放 简 单 等 优点 万 为 突出 。Linux 是 近 10 年 发 展 起 来 的 类 但 于 
Unix 的 操作 系统 。 可 以 说 它 就 是 源 程序 开放 的 Unix 操作 系统 ,因而 它 具备 Unix 的 所 有 优 
点 ,但 同时 灵 对 硬件 没有 特殊 的 要 求 ,可 以 在 个 人 机 上 使 用 ， 这样 一 来 ,其 硬件 成 本 较 之 昂 
贵 的 Unix 系统 而 言 大 大 地 降低 。 加 之 其 操作 系统 和 相关 的 大 多 数 软件 工具 都 属 开放 源 程 
序 ,可 以 免费 下 载 ,使 得 Linux 在 过 去 的 10 年 中 得 到 极 大 的 推广 使 用 。 与 些 同 时 ,把 感 本 低 
廉 的 多 各 计算 机 梅 成 -个 机 组 (eluster} 可 以 用 于 平行 计算 《Parallel computing) ， 提 供 非常 
强大 的 计算 能 力 。 各 前 用 予 复杂 生物 信息 学 研究 项 日 前 计算 机 机 组 包 依 多 达 数 干 台 计 算 
Fi. Bl nux 在 生物 信息 学 研究 中 的 使 用 将 会 更 加 普遍 。 因 此 ,掌握 Linux 的 使 用 对 
于 从 事 牛 物 信息 学 的 研究 者 来 说 实 属 必要 。 

(4) 应 有 一 种 以 上 计算 机 诸 言 的 编程 技能 ,比如 СИС + + ,PERL 或 PYTHON, BEK 
多 数 生物 信息 学 家 的 日 常 工作 并 不 是 编写 复杂 的 计算 机 程序 ,但 由 于 其 所 涉及 的 数据 通 各 
米 自 不 同 的 格式 , 窜 要 经 常 丘 相 转 模 或 者 变换 为 特殊 的 国定 格式 ,或 是 从 大 量 的 数据 中 提出 
少量 特定 的 信息 。 但 其 数据 量 之 大 使 得 手工 操作 无 法 实现 ,又 往往 准 以 找到 现成 的 工具。 
另外 , 生 牧 信息 学 家 常常 做 的 是 把 同 -- 分 析 方 法 对 于 大 量 类 做 的 数据 进行 重复 分 析 , 或 是 定 
期 性 地 执行 同 -- 任 务 。 在 这 些 情形 下 ,往往 可 以 通过 编写 简单 的 剧本 (sceript) 程序 便 可 达到 
日 的 。 在 众多 的 编程 语言 中 ,PERL 由 于 具有 易学 .方便 使 用 .特别 擅长 字符 串 的 处 理 .属于 
开放 源 程序 等 宪 项 优点 而 在 生物 信息 党 研究 中 最 为 流行 。 适 用 于 各 种 平台 的 PERL 软件 均 
可 从 http:AAwww. perl. org 网 站 免费 获取 而且 由 于 开放 源 程 计 运 动 的 结果 ,大 量 在 生物 信 
息 学 中 所 需 的 常用 PERL 模块 和 对 象 已 由 非 启 利和 的 BIOPERL 机 构 人 免费 提供 ,为 生物 信息 学 
的 研究 提供 了 极 太 的 方便 。 其 网 址 为 ;http;//bioped. org ff hitp://epan. org, PERL 特别 适 
用 于 生物 数据 在 不 同 格式 之 问 的 转换 ,从 数据 中 提出 特定 信息 ,序列 基 序 的 搜寻 等 生物 信息 
学 中 的 常规 工作 。 尽管 比较 大 而 复杂 的 软件 工具 大 多 使 用 САС + + 编写 ,PERL 也 可 用 于 编 
写 相 当 复 杂 程 度 的 软件 工具 。 本 章 作 者 极力 推荐 有 志 从 事 千 物 信 息 学 研究 的 未 来 同行 能 够 
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通过 课堂 学 习 或 日 学 掌握 PERL。 对 于 已 有 其 他 浅 言 编程 能 力 青 ,学习 并 掌握 PERL 应 当 是 
非常 赛 易 的 。 行 之 有 效 的 学 习 方法 之 - -是 在 解决 实际 问题 的 应 用 实践 中 学 习 、 巩 园 利 加 强 。 
读者 如 果 想 了 解 PERL 在 生物 信息 学 研究 中 一 - 些 具 体 的 应 用 例子 可 阅读 参考 文献 ”。 除 
PERL 之 外 ,掌握 有 :关系 数据 库 的 SQL (sequential query language) 请 言 ,对 于 数据 库 的 建 
六 和 数据 提取 非常 有 和 用。 另外 ,掌握 一 些 基 本 的 HTML 和 Java 编程 技能 ,可 以 使 你 具备 自 
行 建立 网 页 人 的 能 力 。 

由 于 生物 信息 学 应 用 涉及 各 渗 透 到 生物 医学 研究 的 每 一 个 方面 , 它 的 基本 研究 方 
法 和 常用 技术 无 疑 会 在 不 入 的 将 来 成 为 所 有 生物 医学 研究 J. 作 者 必 备 的 基本 技能 。 
生物 信息 学 研究 | 作者 不 仅 在 生物 信息 学 的 基础 研究 和 应 用 研究 中 起 着 主导 作用 ,也 
官 负 考 推广 和 普及 生物 信息 学 教育 方面 的 艰 只 任务 。 继 信息 科技 (IT 时代 之 后 ,我 们 正 期 
待 着 生物 信息 时 代 的 到 来 1 
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第 2 章 生物 信息 的 流向 


生物 信息 的 流向 ,或 称 遗 传 信息 的 流 冲 ,简称 遗传 信息 流 { genrtic 
information Bow) ,是 生命 活动 的 基本 规律 ,也 是 生物 信息 学 的 基本 娃 
究 对 象 , 即 利用 数理 统计 结合 计算 机 应 用 来 分 析 这 种 址 竺 信息 流 , 将 相 
关 信 息 整 理 成 数据 库 以 便 保 存 和 检索 ,或 者 通过 程序 设计 ,提供 分 析 软 
件 或 服务 性 网站 ,对 这 些 信息 进行 吉 工 处 理 或 预测 分 析 。， 本 章 将 重点 
介绍 生物 信息 在 细胞 内 .细胞 问 和 上 下 和 伐 之 间 的 传递 规律 ,人 慌 此 了 解 分 
子 汪 物 堂 .分子 遗传 党 和 细胞 生物 学 的 基本 原理 与 概念 。 人 遗传 信息 流 
还 包括 遗传 信息 在 物种 间 的 交流 ,这 是 比较 基因 组 学 和 进化 遗传 学 的 
研究 内 容 , 将 分 别 在 第 3 章 和 第 8 章 作 相关 介绍 。 最 后 ,本 章 将 讨论 这 
种 生物 信息 流 卫 的 训 乱 ( 基 岗 罕 变 ) 所 导致 疾病 的 相关 知识 ， 基 网 组 
中 遗传 信息 的 变异 所 引起 的 多 态 性 将 在 第 9 章 药 物 基因 组 学 中 进行 简 


2.1 生物 信息 在 细胞 内 的 流 呵 


细胞 Ceell) 是 构成 生物 体 的 基本 单位 ,细胞 内 全 部 信息 的 集合 即 
细胞 组 (cellome) ,可 分 成 不 同 水 平 的 子 集合 ,包括 苦 共 组 (genome) . 转 
ЗЕН Ciraneriptome ) , tE F1 ( ргоіеоте ) TÉ BE £R ( metabolome) .相互 作 
ШЕ C interactome) .定位 组 (localizome) 4$ ^, DNA 分 子 或 基因 中 所 携 
带 的 遗传 信息 的 流向 遵循 中 心 法 则 {central dogma) , B iH DNA 转录 
(Clranscription) 生 成 信使 RNA ,再 翻 详 (translation ) EZ E Ч, ОЕР 
RNA 病毒 ast ei EL B TE In] Et Pe u plu PEG ( reverse transcription) 2 
互补 DNA ,再 按 上 述 中 心 法 由 实现 遗传 信息 由 DNA 到 淮安 质 的 传递 。 
图 之 - 工 为 中 心 法 则 的 示意 和 留 ， 


DNA 
t t t 1 4 t 
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转 
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s'GpppL L L AAA AAA 3" mRNA 
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2-1 基因 的 结构 及 遗传 学 的 中 心 法 则 示意 


2.1.1 基因 组 :DNA 和 基因 的 结构 

基 央 给 的 概念 最 早 在 20 14 30 年 代 提 出 ,是 指 生物 个 体 中 全 部 遗传 信息 的 总 和 。 

2.1.1.1 DNA 的 化 学 组 成 与 双 螺 旋 结 构 世 3 

核酸 ( nucleic acid) 分 为 脱氧 核糖 核酸 CDNA ) 和 核糖 核酸 (RNA ) 两 大 类 ,是 由 嗓 叭 碱 或 
mur gk ЖЖЖ) ‚ШШЕ РӘН REL RE A TAIA. DNA 分 子 中 的 成 糖 为 D -脱氧 
核糖 ,RNA 分 子 中 的 成 糖 为 D — Bot, DNA Ar T rp ДЛЕ (А), МШЕ G) Big 
Е СТУ ЖИ ЕЕЕ ( C) ВМА PHIR LER А) I EE (C), ЖИ ЕСТ) AQ BRL ТЕ 
(C), ЖЕЛ АНЕЛ RP (nucleoside) |J B kE Wak BE S3 ERA) T S8 Cr) AZ Er 
R£(nucleotide) , DNA 或 RNA 分 子 即 是 - p: E EGER T BC T CUEVA 3,5" - 
磷酸 二 酯 键 相连 形成 DNA 或 RNA。 分 子 中 保留 一 个 5 游离 磷酸 基 团 ( 称 为 53 Yu) З df 
离 羟 基 ( 称 为 3 端 ) 。 这 就 是 通常 被 用 来 描述 核酸 分 子 方向 性 的 5 3" sk, 3' 55" Jr Is] 

1953 年 , Watson 和 Crick 发 现 了 DNA 的 双 螺 旋 分 子 结 构 , 这 一 重大 发 现 被 认为 是 现代 
分 子 牛 物 学 的 重要 里 程 碑 。 其 某 本 内 容 是 :两 股 方向 相反 的 DNA 链 相互 缠绕 形成 双 螺 旋 结 
构 (double helix) , ПӘ BB) £E S, CIR E B RA ЕЕ РУ, Е SR I] P OL 6 А – 
T.G - C нж ка ДАН а DL Ж aR. DNA ЖАШ т, A; EE ВА E EO З. 4 nm, Hi 
10 个 碱 基 对 组 成 ,每 个 碱 基 对 沿 螺旋 轴 大 约 旋转 36^ ,螺旋 的 直径 为 2 nm. 

在 实际 应 用 中 , 常 涉及 互补 链 f complementary strand ) 和 反 平 行 链 ( antiparallel strand ) 的 
概念 。 例 如 ,5 -GATCC -3° 的 互补 DNA 链 为 3 - CTAGG -5 ,互补 RNA 链 为 3 - 
CUAGG -5° , 反 平行 DNA 链 为 5 -GGATC -3' 。 生 物 信息 学 中 ,为 了 便于 程序 编辑 ,常用 
表 2 -1 中 的 代码 来 表示 木 同类 型 的 核 若 酸 。 


表 2 -1 Юю 


ЖЕ 代码 Ez tr Rë 代码 
А А U u U 
C C C zk T(U) Y 
G G GETU) K 
T T A dX TQU) w 
ЗЕ A В АЗС R 
ЗЕ С D Ану C M 
ЕС H GEC 5 
ЇЕ Т ү А вй T(U S бон С М 


2.1.1.2 DNA KAA EH AESA 

DNA 的 复制 号 以 半 保 留 复制 (semi — conservative replication) 方式 进行 , 即 每 条 亲 链 分 别 
作为 模板 ,合成 :条 互补 的 子 链 ,这 样 形 成 的 子 代 双 螺旋 与 亲 代 双 螺 旋 完 全 相同 。DNA XE 
制 是 从 复制 叉 开 始 , 以 3 一 5 DNA 链 为 模板 , 按 5 一 3 方向 延伸 。 复 制 起 始 需要 小 户 段 
RNA 为 引物 ,在 DNA JG IH EH F , R pk t Б К ИКЕА ACRI 34 ВЕЕР M. 
DNA Ж ЛЕК „ЖЕРЕ И TE Bg S Fj DNA 的 复制 这 程 。 复 制 起 点 可 以 是 多 个 ,同步 进行 ， 
每 个 复制 单位 又 被 称 为 复制 子 (replicon) 。 

TENA . 低 盐 浓度 或 碱 处 理 的 条 件 下 ,DNA 双 链 解 开 , 碱 某 间 等 键 被 打 断 ,形成 两 条 单 
链 , 此 过 程 被 称 为 变性 ( denaturation) 或 熔化 (meliing) 。 随 着 涛 度 升 高 , 双 链 逐渐 革 开 ,最 后 
变 戌 两 茶 单 链 。 这 种 温度 变化 范围 的 中 点 被 称 为 熔化 温度 (melting temperature) ,以 Tm 表 
示 , 与 DNA 链 中 GC 碱 基 对 含量 成 正比 。 一 般 赛 核 苷 酸 片 段 (15 ~20 Бр) У Tm 值 可 通过 公 
式 Tm( C) =2(A +T) +4{G+C) 来 粗略 计算 , 已 有 专用 软件 (如 Vector NTI) 或 网 站 【〈 参 
见 http :// www. biotools. idtdna. com/gateway/) 计算 Tm 值 和 模拟 熔化 曲线 。 变 性 后 的 单 链 ， 
通过 缓慢 降低 温度 ,互补 的 单 链 又 按 碱 基 配 对 原则 重新 形成 站 链 , 此 过 程 称 为 复 性 (reratu- 
ration) 。 基 于 核酸 变性 和 复 性 的 原理 ,建立 了 核酸 分 子 傈 交 的 技术 ,用 于 定性 或 定量 检测 葛 
基因 , 即 通常 所 说 的 Southern 印迹 和 Northern 印迹 。 结 合 DNA 复制 和 变性 . 复 性 诛 理 , 在 体 
УРАГ 38 3E [5] pod OE BE r P, PR2 A R G BEBE XIV. ( polymerase chain reaction, 
PCR) ,这 是 基因 组 研究 中 的 革命 性 技术 。 

2.1.1.3 Ed eO 

(Т) 基因 的 定义 和 分 类 WA (gene) E: DNA W RNA IT PERPE BJ ВИЛЕ], ЕЛИ 
ftri PL BA E PEOR IE И ЛЕ By NIRE RD Т T ARRIERE РА А AA AE EL in. EDS] Des 
一 条 多肽 链 的 DNA 片段 。 根 据 其 是 否 其 有 转录 种 翻译 功能 可 以 把 基因 分 为 3 类 。 第 … 类 
是 编 公 重 白质 移 基 因 , 它 具有 转录 和 翻译 功能 ,包括 编码 酶 和 结构 蛋白 的 结构 基因 以 及 编码 
阻 过 蛋白 的 调节 基因 ;第 二 类 是 只 有 转录 功能 而 没有 翻 详 功 能 的 基因 ,包括 tRNA 基因 和 
rRNA 基因 ;第 三 类 是 不 转录 的 基因 , 它 对 基因 表达 起 调节 控制 作用 ,包括 启动 基因 操纵 基 


RA 


GATERA. aAA ЖАА EA 8 B] i HER D du ТЭР. 
` (2) 基 内 的 结构 特点 “不同 基因 的 天 小 各 异 ,小 的 木 到 100 ЖЕЗ] ( base pair, bp) ,大 
的 有 几 百 万 bp。 通 常 - .个 表达 基 内 含 编码 区 和 非 编码 区 。 编 码 区 被 分 隔 成 不 同 的 区 段 , 称 
为 外 品 子 (exon)。 外 品 子 之 问 的 序列 称 为 内 食 子 (inton) , 属 非 编码 区 。 内 售 子 序列 在 
DNA 转录 后 mRNA 的 加 工 中 被 彰 扔 掉 ,下 文 “ 转 录 组 ”中 将 作 介绍 。 不 同 物种 间 外 显 子 相 
对 保守 ,内 会 子 则 差别 甚大 。 部 分 基因 人 由 一 个 外 显 子 纽 成 , 即 不 含 网 食 子 ,转录 本 序列 与 
基 办 弓 序 列 等 同 。 原 核 生物 和 线粒体 基因 组 的 基因 不 含 内 含 子 。 非 编码 区 还 包括 5 ЯЗ" 
端的 序列 ,通常 售 转 录 调 控 和 加 了 .序列 , iyi sh F .增强 子 .mRNA ЖЖ А Jisa m S ,参见 
图 2 -1。 光 数 基 册 的 5" 端 含有 丰富 的 未 甲 基 化 的 CpG 双核 音 酸 , 称 之 为 CpG 岛 。CpG A 
会 区 通常 位 于 染色 体 G 显 带 中 浅 着 色 带 。 
基 内 与 基因 之 间 的 序列 被 称 为 无 用 DNA(junk DNA) ,不 参与 基因 的 组 成 , 俱 仍 可 能 对 
基 内 的 表达 发 挥 调控 作用 。 目 前 对 其 生物 学 功能 尚 不 了 解 。 甚 组成 上 上 除 单 插页 外 ,也 含有 
较 多 的 重复 ОМА 序列 。 重 复 DNA 可 分 为 卫星 DNA 和 分 散 重复 序列 。 人 类 基因 组 中 , 单 搂 
BL DNA .卫星 DNA ,分散 重复 DNA Лу ЦЫ 75% ‚10% 15%. БЕ DNA 将 在 3.1.3 
节 中 详细 介绍 
(3) 基因 家 族 利 基 央 簇 ”多 数 基因 随机 分 散 于 不 同 的 染 鱼 体 上 ,基因 在 染色 体 的 位 置 
称 为 位 点 (leeus) 。 通 常 将 不 同 物种 间 苇 能 相同 的 .日 位 于 向 源 部 位 的 基 央 称 为 同 源 基于 
( homolog 或 ortholog) , 同一 物种 间 位 于 不 同位 点 但 功能 相似 的 基因 称 为 同系 基 央 ( paral- 
og) 。 理 论 上 ,每 个 基因 都 隶属 于 - -个 基因 家 族 ( gene family) 。 每 个 基因 家 族 的 成 员 功 能 相 
fel eoe lr ,可 分 散 于 本 同 染色 体 或 在 网 一 染 估 体 基 个 区 发 碾 复 出现 ,这 种 成 能 出现 的 基因 又 
称 为 基因 矫 ( gene cluster), ШЖ P3 56 NSS o EEER RE P AE DAL EK .核糖 体 RNA ЖЫЛТ. 
Xf — 5 A E A FS pu ti ce D RE ЖЕ ГА] ЖН, ТА ЖЕТЕЛИ ЖН HP B) Ж HE IRR BE TER BERE KEK 
达 或 不 具备 功能 性 基因 的 生物 学 功能 , 称 为 假 基 因 (pseudogene) ‚ЖН ЖЕК. WH a REF 
基因 家 族 中 存在 的 一 些 假 a ЖЕР Е В papi EDI, fi SEDSArdE DU THE (non - pro- 
cessed) 和 加 工 性 (processed) 两 大 类 前 者 通常 由 于 基因 复制 所 产生 ,往往 检测 不 出 表达 产 
物 ; 后 者 是 由 填 mRNA 经 逆转 录 择 入 基因 组 后 进一步 突变 的 结果 ,这 种 假 基因 通常 木 含 内 
含 子 , 但 常 具 有 转录 其 至 翻 洋 功能 ,表达 的 mRNA 或 蛋白质 不 稳定 ,易于 降解 ,或 者 所 形成 
的 蛋白 质 无 功能 。 与 功能 基因 相 比 , 假 基因 往往 办 无 多 突变 使 翻译 提前 答 止 ,或 者 突变 导致 
重 白 质 的 某 些 结构 域 缺失 而 失去 功能 。 近 来 发 现 某 些 盆 基 央 也 参与 基因 表达 的 调 摔 。 美 国 
Yale 大 学 Gerstein 实验 室 已 建立 相 庶 的 人 类 基因 组 假 基因 数据 库 (http:””pseudogene. org) 。 
基因 复 的 形成 是 基因 复制 (duplication) 和 演变 (divergence) 的 结果 。 基 因 复 制 可 以 是 一 
个 或 几 个 外 显 子 的 复制 .也 可 以 是 整个 或 数 个 基因 的 复制 。 整 基因 的 复制 是 相对 常见 的 ,如 
AŽ o - ЖЕНЕ — 珠 蛋 白 繁 的 形成 就 是 在 漫长 的 进化 过 程 中 , 珠 蛋白 基因 不 断 复 制 和 
不 等 交换 (unequal cross - over) 的 结果 ,形成 了 人 体 不 同 发 育 阶段 特异 表达 的 珠 重 白 基因 和 
BERA, o 类 基因 笋 位 于 16 号 染色 体 短 辟 末端 (16p12 - pter) ,该 基因 笋 包括 两 个 功能 性 的 
«ЗЕ (а, fl o4) , — PRG RU] SE SB Е EE, SARER (IZ, as aro) 和 一 个 功能 未 明 
的 8 基因 ,长 度 约 30 kb, IERA КЕ ЕЕ, НЕЕ ИШИНЕ 5 ' —3' {КИК S" - £ - óZ, 
фе, фо -m о 78, -3' „ ВЕЖА T 11 号 染色 体 短 辟 (11p15,5 ) ,包括 e. 
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$ 
yEy 和 *y) .8 MEREKARA, DUKEN kb, FRN 号 колт ask | Ж 
ER ,基因 复 内 各 成 员 也 都 紧密 连锁 , 其 排列 顺序 沿 5' 53 "方向 依次 为 5 -pb — e — “y ~ 
^a -44B, -6- 有 -3 在 人 体 发 育 的 不 同 阶段 ,各 种 血红 蛋 跌 的 合成 随 着 各 珠 蛋 白 基 央 依 次 
表达 而 呈现 由 王 交 替 消 长 。 在 妊娠 3 ~8 周 ,w ARTA a 和 * 基因 与 8 SEDIS THB 8、Y 
AED dc Bg SU P338 1A , 相 于 销 人 台 后 分 别 形成 胚胎 期 的 3 #h LET E ET: Hh Gower, (2,2) Hb 
Gower, (0,64) fl Hb Porland(Z,y,) .. (EHRJUAE EE 3 ~9 个 月 ,主要 合成 a My (озу) ‚к 和 
{ 链 关 闭 。 与 此 同时 ,站 到 出 生前 ,8 基因 簇 中 的 6 和 8B 时 因 也 表达 ,y ЖЫ ШЕЙ Лг B 
ЖЕ 36 ЈА], В БЕНО П, ЩЩ ЛЕ 3 AH, Дажа 链 的 合成 为 主 , 所 以 胎儿 血红 重 
白 主要 为 HbF(asy,), WEILE 7096 ~ 8096 ; ПОА A ML ETE АА 3 ЖЕ: НА (af, 25105 
9595 |J. E) HbA (0,6, ch 296 ~ 3.5% JE HbF (oy, ET 1.596), 


2.1.2 转录 组 :mRNA 的 结构 "1 

2.1.2.1 КМА 的 结构 

按 碱 基 配 对 原则 将 DNA 分 子 的 遗传 信息 找 册 到 mRNA 分 于 中 , 称 为 转录 (transcrip- 
Поп) 。 转 录 组 是 指 细胞 内 经 转录 生成 的 全 部 RNA HAA, RNA 关 功 能 的 不 辐 ,可 分 为 3 
Æ EH RNA mRNA) .转运 RNA(tRNA) ВНЕ RNA(IRNA)。 除 编码 RNA 和 TRNA 
的 基因 外 ,所 有 编码 mRNA 的 基因 都 能 笑 译 成 多 肽 链 ,最 后 成 为 具有 一 定 生物 学 世 能 的 量 
白质 。RNA 分 子 结构 与 DNA 相似 ,但 RNA 通常 以 单 链 形式 存在 ,网 一 链 上 不 同 区 万 也 可 
按 &-U,G-C 的 碱 基 配 对 原则 形成 局 部 双 链 次 级 结构 。RNA 的 次 级 结构 不 像 DNA 的 双 
螺旋 结构 那样 规整 ,如 tRNA 二 级 结构 呈 三 叶 草 型 , 一些 部 位 形成 双 蝶 旋 , 组 成 其 辟 ; 男 一 些 
部 位 呈 环 状 单 链 结 构 。 

2.1.2.2 转录 过 程 

转录 的 过 程 发 生 在 细胞 校内 。 真 核 生 物 中 ,首先 是 RNA ЗЕРНЯ РЕЛ 2J) f: pro- 
moter), HaT- -AT 于 转录 起 始点 上 游 10 ~ 35 bp 内 的 - -Ft 16 —18 bp fj DNA 序列 ,其 
两 端 为 道 用 序列 (consensus sequence), fecil fiu. БЕРУ 10 bp 附近 的 通用 序列 为 TATA- 
АТ, ОЕ TATA 全; 转录 起 始点 上 上 游 约 35 bp 附近 的 通用 序列 为 TTGACA。 许多 看 家 基因 
( house — keeping gene) 缺乏 TATA 颌 ,其 转录 起 始点 可 为 多 个 ,一 般 位 于 高 食 GC 区 。 识别 
启动 子 的 同时 ,转录 激活 因子 销 定 在 增强 子 (enhancer) Sb fu , TE SE DS T (transcription fac- 
tor) 的 作用 下 ,形成 转录 起 始 复 合 物 , RNA ЖАА DNA 模板 链 3' 一 5 方向 ,依照 A - U, 
T-A,G-C,C-G 的 碱 基 配 对 原则 , 按 $ 一 3 方向 合成 mRNA 链 ， 直 到 转录 终止 因子 识别 
转录 终止 子 (terminator) ,转录 过 程 结束 。 转 录 的 调节 还 受 沉默 子 (sileneer) 的 作用 ,抑制 或 
减弱 转录 过 程 。 

转录 模板 链 分 有 意义 链 ,上 反 意 闵 链 , 前 者 转录 物 一 般 有 具有 编码 蛋白 质 的 功能 ,后 考 无 纺 
码 功 能 ,但 能 调节 有 意 闵 链 的 表达 。 这 种 反 义 RNA( antisense RNA) 又 被 称 为 干扰 КМА Cin- 
terference RNA, RNAi) ,其 发 挥 调节 作用 的 方式 有 3 种 :中 与 mRNA 结合 后 ,使 之 不 能 与 核 
糖 体 结 合 ,影响 翻译 的 进行 ;四 与 RNA 结合 后 ,影响 其 稳定 性 ,使 之 降解 ,类 似 RNA 酶 的 作 
HOS mRNA 结合 发 挥 类 位 终止 子 的 作用 ,使 转录 提前 终止 。 近 年 来 发 现 体内 双 链 RNA 
在 dicer 的 作用 下 降解 为 20mer 左右 的 双 链 小 分 子 RNA, BI siRNA( small interfering КМА ), 
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可 发 挥 上 述 反 义 RNA 相似 的 功能 。 分 离 和 鉴定 这 类 siRNA 址 基因 表达 调控 研究 网 重 要 内 
Fo WAHA LARA RAP siRNA 用 于 封闭 兵种 特定 守 mRNA 的 表达 ,已 广泛 用 于 基 
因 的 功能 研究 和 基因 靶 向 治疗 。 将 这 种 SRNA 导入 细胞 内 的 方法 一 般 分 两 种 ;- -其 通过 与 
特殊 载体 相连 经 胞 吞 作用 将 其 运送 到 胞 桨 ;二 是 将 其 导入 ОМА 表达 载体 , 转 染 细胞 后 进入 
细胞 核 ,经 转录 生成 siRNA ,再 释放 到 胞 浆 。 进 入 胞 桨 内 的 siRNA 首先 形成 双 链 RNA 诱导 
的 沉默 复合 体 (dsRNA - induced silencing complex, RISC) , RISC Ej tg] mRNA 结合 发 排 其 抑 
制作 用 或 非特 异性 RNA 酶 的 作用 ,达到 mRNA {И ( knock - down) 的 目的 。 如 果 导 人 动物 
胀 胎 干 细 跑 , 虽 可 复制 一 些 疾 病 模型 。 

真 核 细 胞 内 АМА 聚合 酶 分 1 , П, ШК REA ТЗВ rRNA 前 体 的 合成 ,最 后 加 十 成 
5.88, 185 和 28S rRNA ; RGM l| SEE f pt mRNA 的 合成 ;聚合 酶 看 主要 催化 小 分 子 RNA 
(如 tRNA ЯП 55 rRNA) 的 合成 。 一 种 称 为 外 显 体 {exosome ) 的 复合 物 ,参与 RNA 的 加 工 过 
程 ,可 发 挥 3' 一 5 核酸 外 切 酶 活性 ,对 那些 多 余 的 .异常 加 1. 的 RNA 进行 降解 。 

2.1.2.3 mRNA 转录 后 的 加 工 

直 核 生物 成 熟 mRNA 是 经 过 转录 后 加 本 形 成 的 ,该 加 1 过程 在 细胞 核 内 进行 。 成熟 的 
mRNA 闭 被 移出 细胞 核 ,到 胞 桨 中 参与 核糖 体 的 形成 。mRNA 的 加 工 主 要 包括 5' mg 
(capping) ,3' ZEB EF BRE EL polyadenylation) .RNA 前 切 (splicing} X187 editing) Ж, 2: BL El 
2-1, Sif КМА 转录 本 (transcript) 达 到 25 ~ 30 bp 时 ,其 5' 端 在 酶 的 作用 下 被 共 价 收 饰 , 添 
吉 一 个 以 5” -5' 共 价 键 相连 的 乌 氨 酸 , 以 防止 细胞 内 5' 一 3” 核 酸 外 切 酶 对 КМА 的 降解 
该 岛 氨 酸 的 侧 链 也 在 酶 的 作用 下 进行 修饰 ,其 呵 叭 环 上 NN 位 被 甲 基 化 ,与 此 同时 , 紧 接 着 相 
连 的 第 一 和 第 二 个 ( 仅 准 椎 动物 ) 核 医 酸 的 成 糖 环 上 的 2 关 基 也 被 甲 基 化 ,完成 加 帽 过 程 。 

新 生 mRNA 的 3' 趾 被 酶 切 下 后 ,再 在 酶 的 众 化 下 泳 加 100 ~ 250 个 腺 苷 酸 ,此 过 程 称 为 
加 尾 。 这 是 通过 识别 多 卡 腺 并 酸化 信号 AAUAAA, 在 其 下 游 10 ~25 个 碱 基 的 部 位 进行 切 
о, 

mRNA 剪 切 足 在 一 个 称 为 剪 切 体 (spliceosome ) 的 大 型 复合 物 参 与 下 进行 的 , 剪 切 体 通 
常识 别 内 含 子 两 端的 GU - АС 信 叶 ,将 内 含 子 切 除 和 外 显 子 拼接 起 来 。 其 他 识 草 序列 包括 
位 于 内 合子 3 Ba ЕЙ 20 ~ 50 bp ЈА E3? HEARRE АТ 区 域 。 最 近 发 现 , 一 
些 位 于 外 显 子 上 的 外 显 子 剪 切 增 强 子 (exonic splicing enhancer, ESE) 也 被 认为 参与 前 切 过 
程 。 这 种 ESE 位 点 的 突变 可 导致 不 同 的 拼接 产物 的 出 现 。 因 剪 切 方式 的 不 同 , 同 一 基 风 最 
终 可 产生 “种 或 多 种 不 同 的 转录 本 , 称 为 选择 性 转录 林 (alternalive transeript ) ,每 种 转录 本 
所 合 的 外 星子 组 成 有 所 不 同 ,特别 以 于 端的 不 同 较 常见 ,这 道 带 由 于 不 同 的 户 动 子 所 引起 。 
选择 性 转录 本 的 出 现 是 真 核 小 物 复 森 性 的 原因 之 一 , 即 一 个 基因 可 有 包 个 转录 本 ,因此 可 编 
码 多 个 不 同 的 蛋 魏 异 构 体 {isoform) 。 如 编码 dystrophin 的 DMD 基因 ,目前 至 少 已 发 现 ? 种 
不 同 的 分 子 质 量 大 小 不 一 的 拭 构 体 ,其 兮 布 上 其 有 组 织 特 异性 ,功能 上 也 有 所 不 同 。 

mRNA 的 前 辑 是 在 前 辑 体 (eqitesome) 的 作用 下 进行 的 ,是 一 种 不 依赖 于 DNA. ЖЕТП 
录 过 程 的 转录 后 修饰 ,其 结 东 是 导致 部 分 RNA 序列 的 改变 ,使 mRNA 中 出 现 点 突变 ,和 包括 
E Ee COE C 经 脱 氨 变 成 Ú) 、 插 人 或 缺失 。 目 前 认为 ,剪辑 公 在 人 体 等 少数 几 种 生物 中 
出 现 ,是 蛋白 质 多 态 性 产生 的 原因 之 一 。 
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2.1.3. 各所 组 : 蛋 握 质 的 结构 .相互 作用 和 定位 

基因 组 和 生物 信息 学 研究 的 核心 是 理解 基因 组 所 编码 的 全 章 慢 白质 , 即 重 锯 组 ,或 称 蛋 白 
FH Cproteome) 。 甬 日 组 的 概念 在 20 世纪 60 年 代 已 经 提出 ,直到 90 年 代 后 期 才 被 广泛 接受 。 

2.1.3.1 遗传 密 码 与 翻译 过 程 1* 

mRNA 分 子 中 的 遗传 信息 根据 滥 传 密码 (genetic code) 规 律 指导 多 肘 链 的 合成 , 称 为 翻译 
(translation) 。 遗 传 密码 是 指 mRNA 中 的 核 背 酸 序 列 所 对 应 的 省 月 质 序列 。 遗 传 密码 为 一 组 
UBER BERE CICERO F codon) ,每 个 三 联 核 昔 酸 编码 一 种 氨基 酸 。 构 成 人 类 和 蛋白质 的 20 
种 氨基 酸 ( 表 2 -2) 分 别 由 61 组 三 联 核 昔 酸 的 遗传 密码 所 编码 .AUG 除 编码 蛋氨酸 外 ,也 
是 起 始 密 码 子 ,UAG UGA 和 ОАА 272 ipsa T, 013€ 2 -3。 起 始 密码 子 与 终止 密码 子 之 
fal E E ER T pR B S e ВК ВУСТ ВЕЕ (open reading frame , ОКЕ) , 0.82 -1 


表 2 -2 ЕЖА 20 ЖИҢЕЛ HALO 


中 文 名 AX 三 字符 代码 FoERHUM 

Е AAM Е Alanine i Ala EE СА 
HARE Arginine Arg R 
ЖЖ Asparagine Asn N 
RAZAR Aspartic acid Азр n 
ЕВЕ Re Cysteine Cys C 
fra Bic Glutamine Gln 0 
TR Clutamie acid Glu E 
HAR Glycine Gly G 
HAM Histidine His H 
уж Isoleucine Пе I 
ACER Leucine Leu I. 
HAE Lysine Lys K 
WAR Methionine Met M 
AHAN Phenylalanine Phe F 
ШШ Proline Pro р 
а Serine Ser 5 
苏 氨 酸 Threnine Thr T 
ва Tryptophan тр 


w 
HAE ‘Fyrosine Tyr Y 
а Valine Val ү 


mM R ЖОКЕ JA 


表 2-3 РНЕ 
第 二 碱 基 
U с A 006 
Fhe Ser Tyr Cys b 
Phe Ser Туг Сүз C 
v Leu Ser рн SLAE А 
len Ser 终止 密码 Trp G 
Len Pro His Árg U 
Leu Pro His Ате С 
第 C Leu Pro Glo Атр А 第 
94 Leu Pro Gln Arg G m 
H 基 
Де Thr Авп Ser l: 
lle Thr Asn Ser C 
А lle Ihr Lys Ат А 
Met [hr Lys Arg G 
起 始 密码 
Val Ala Азр Gly U 
Yal Ala Авр Gls C 
° Val Ala Glu Gly A 
Val Ala Glu Gly C 


ЖЕЕП ЕЙТЕ ДЫ ТЕРОН SI PUER BS S ВОН fr TORH тат ру PR р) E: Sx t РАЕС, 
分 大 ,小 亚 基 两 部 分 。 原 核 生 物 和 真 核 生物 核糖 体 组 成 有 所 不 同 , 真 核 生物 核糖 体 小 扯 基 
(408) 主要 IH 185 RNA 组 成 ,大 歌 基 (605) 则 由 55,5. 85 ЯП 285 КМА 组 成 。 少 译 过 程 较 复 
区 ,涉及 上 百 种 生物 大 分 子 的 参与 。 翻 译 由 起 始 密 码 AUC 开始 , 沿 mRNA 的 开放 阅读 框 
5 一 3 7 方向 进行 。 首 先 在 起 始 因子 和 GTP 的 作用 下 ,识别 mRNA 5 WAS Z WE A КЁ, Ир 
起 始 密 码 (5 AUG) 的 反 密 码 子 (antieoqon) (5° CAU) ВУЖ A ~ 1RNA 与 结合 在 核 精 体 
小 亚 基 上 的 mRNA 中 对 应 的 密码 子 配对 结合 ,形成 起 始 复 合 物 。 起 始 密 码 AUG 通常 位 于 
5' Jë Fit 100 bp 附近 ,起 始 密 人 码 常 含有 独特 的 Kozak 识别 序列 GCCRCCAUGG{R AE A R 
6G)。 起 始 复合 煌 进一步 与 核糖 体 大 亚 基 结合 ,释放 起 始 内 于 和 СТР. ZERKEER SED E TE SE 
伸 因 子 、 转 肽 酶 等 的 作用 下 ,经 反复 的 进位 . 转 肽 积 移 位 而 进行 的 ,直到 出 更 终止 密码 , 肽 链 
ARAA., mRNA 经 去 由 和 去 尾 后 被 降解 。 生 白质 翻译 后 ,一 般 须 经 过 进一步 修饰 ,如 糖 基 
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化 等 , 才 彤 成 有 功能 的 蛋白 质 。 
2.1.3.2 жеж 
t& FUE H 20 种 不 同 氨基 酸 组 成 的 多肽 链 。 氢 基 酸 的 基本 结构 为 ; 


| 
NH,—CH—COOH 


各 种 氨基 酸 之 间 的 区 别 在 于 侧 链 基 团 R 的 不 同 。 通常 根据 R 基 团 将 20 种 氨基 酸 分 为 
4 类 , 即 极 性 , 非 极 性 .酸性 和 碱 性 氨基 酸 。 所 基 端 称 为 N 一 未 端 ,被 基 端 称 为 C 一 末端 。 毛 
基 酸 之 间 通 过 肽 键 { 一 CO 一 NH 一 ) 相 连 形 成 多 肽 链 ,保留 N 一 未 端的 氨基 和 C 一 未 端的 羧 
基 。 多 肽 链 中 氮 基 酸 的 排列 顺序 , 称 为 蛋白 质 的 一 级 结构 { primary structure) 。 

2.1.3.3 Жар n I de RU 

重 白 质 一 级 结构 的 肘 键 中 ,和 氧 原 子 带 部 分 负电 苟 , 迄 原子 带 部 分 卡 电 荷 。 由 于 多 肘 链 中 
合 几 十 、 儿 白 , 其 至上 和 干 个 肘 键 , 气 气 原子 之 间 可 形成 气 键 ,从 而 形成 a PE g (a — helix) nk g 
片 层 (8 - sheet) 。a 螺旋 类 似 线圈 (enoil) ,就 像 电 话机 上 的 电话 线 轿 一 样 ,每 螺旋 一 圈 合 
3.6 个 氨基 酸 残 基 ;B 片 层 正如 起 优 相 疝 的 板 层 相 奢 结构。 另外 ,邻近 的 不 同 半 胶 氨 酸 的 琉 
基 间 可 形成 二 硫 链 (一 3 一 S$ 一 ) ,也 是 导致 蛋白 质 折 春 的 重要 原因 ,可 形成 环 状 结构 (loop) 。 
ЖКК o 螺旋 ,8 片 屋 和 二 硫 键 的 形 威 便 是 蛋白 质 的 二 级 结构 (secondary structure), Ж 
5 RR RE THEE k B -B КБИ a-a RIE o 螺旋 -是 片 层 . 环 -~- 环 结构 等 。 线 
8 coiled — coil) 是 一 种 特殊 的 超 二 级 结构 , 相 邻 的 两 个 a 螺 旋 癌 相互 包 绕 , 形 成 朴 
水 键 相 与 作用 , 侧 链 各 还 可 形成 离子 键 ,这 种 特殊 的 结构 方式 是 由 蛋白 质 一 级 结构 所 决定 ， 
通常 是 由 于 七 氨基 酸 重复 单位 (hepiad repeat) 组 成 ,可 通过 软件 作 预 测 分 析 。 线圈 绕 线 圈 结 
构 通 常 是 复合 体 中 不 同业 基 相 蕊 作用 的 区 域 。 

由 于 和 多肽 链 的 组 成 不 同 , 极 性 或 酸 、 碱 性 氨基 酸 , 具 水 洲 性 , 称 为 亲 水 性 (hydrophilic ) ; 
非 极 性 氨基 酸 , 难 深 于 水 , 称 为 玖 水 性 (hydrophobic )。 对 村 所 形成 的 球状 多 上 肘 链 而 言 , 亲 水 
性 基 团 常 位 于 表 丰 , 朴 水 性 基 团 一 般 位 于 崩 部 。 对 于 膜 内 在 蛋白 质 而 言 , КНР АДЫ PS B 
外 人 删 ,路 水 基 团 朝向 膜 的 内 部 ,这 种 蛋白 质 与 周转 环境 之 加 的 亲 水 和 玻 水 作用 便 形成 了 蛋白 
质 的 一 级 结构 (tertiary structure) 。 每 种 蛋白 质 都 有 其 独特 的 三 级 结构 。 具 有 三 级 结构 的 蛋 
Fi ERA SEC monomer) 。-- 般 只 有 其 有 三 级 结构 的 蛋白 质 才 能 发 皖 其 相应 的 生物 学 功 
能 。 

许多 活性 蛋白质 不 是 由 一 个 单 体 组 成 ,而 是 由 多 个 相同 或 不 同 的 单 体 相 互 作用 形成 的 
多 诊 休 ,每 个 单 体 义 称 为 业 基 (subunit) 。 这 种 结构 称 为 蛋白 质 的 四 线 结 构 ( quaternary struc- 
ture) 。 如 血红 和 曙 白 是 由 2 个 ee 和 2 个 及 亚 基 组 成 的 四 聚 体 。 每 个 亚 基 不 能 发 挥 作用 ,只 有 
当 这 种 四 襄 体 与 亚 铁 结合 后 ,才能 发 挥 失 带 氧 的 功能 ， 重 白质 的 二 = .四 级 结构 统称 为 蛋 
白质 的 空间 构象 或 三 维 构象 (3D conformation) 。 在 加 热 . 酸 、 碱 . 盐 等 条 件 下 , #Ë PA BE B) == |H] 
Fur S SEDI , 称 为 蛋 和 月 质 的 变性 作用 ; 奶 果 变性 条 件 唐 和 ,和 蛋白质 又 可 类 复 其 空间 杨 象 ERO E 
ИЛНЕ FE, 


$, 
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日 前 已 有 不 少 蛋 白质 分 析 软 件 用 -于 沂 测 覃 白质 的 二 级 结构 .结构 域 .结合 部 在 和 相互 作 
НЕ, 这些 软件 是 在 蛋 让 质 - :级 结构 基础 上 ,通过 氢 键 和 破水 键 形 成 ,化 学 自由 能 分 析 等 
进行 预测 ,其 准确 性 据 称 可 达 70% 4:8 , [FUB EH EORR B3 PESE 7А 30% - 4096 , 详 见 第 6 
EUR X AS НЕА Se ЖЕ. x bU ЗВ BUE — b HESSE. РЧЛ УТРАТ 
ЖЖ ЛЕ X - ST AS k hy ( X — ray crystallography) 312: og J& JK (NMRO . E pu € 
Fd Мио vc Ж АТИНЕ, VASE ROSE SU: S A h А А SCU УТ, 33 B ДЗ EJ 
蛋 F] 分 子 结构 收录 于 PDB ЖШН rB (http://www. pdb. org) ,这 是 和 恒 站 组 学 利 结构 基因 组 学 
的 重要 纪 成 部 分 , 详 风 第 6 章 。 此 外 ,要 了 解 : -个 蛋 妇 质询 功能 ,除了 解 其 本 身 的 结构 特点 
外 ,分 子 进 化 (moleeular evolution) 分 析 也 有 助 于 理解 蛋白 质 的 功能 ,参见 第 8 章 有 关 进 化 遗 
传 学 内 容 。 

2.1.3.4 蛋 自 质 的 相互 作用 和 定位 “1 

(1 ) 量 与 质 的 相互 作用 ”蛋白质 的 一 级 结 枯 决 定 其 空间 外 和 构 , 蛋 白质 的 结构 又 次 定 其 
功能 。 许 多 和 蛋白质 在 发 挥 其 生物 学 功能 时 ,往往 某 个 或 某 些 和 氨基 酸 是 其 关键 区 域 , 称 为 结构 
域 (domain} 。 功 能 相同 或 相近 的 同 源 蛋 安 质 常 具有 相同 的 结构 域 , 每 个 结构 域 相对 保 汪 ， 
有 其 共同 祖先 ,是 由 于 进化 过 程 中 的 复制 .演化 . 转 位 等 形成 的 。 多 数 重 白质 发 挥 作 用 时 是 
与 其 他 一 白质 协同 作用 ,不 同 恒 白质 之 癌 形 成 复合 体 (complex] 。 每 个 蛋白 质 可 视 做 这 一 - 复 
FRETE XE ( subunit) , 理 基 间 相 五 作用 ,形成 紧密 的 复合 体 结构 或 共同 组 成 复合 体 的 活性 
中 心 。 这 种 相 五 作用 往往 涉及 蛋白质 的 结构 域 , 当 结 构 域 中 的 氨基 酸 因 突变 被 替换 后 ,会 导 
致 复合 体 上 去 稳定 化 (destahlization ) ,复合 体形 成 障碍 而 被 降解 。 如 下 立 “ 溶 酶 体 相 关 细 胞 
器 "形成 中 所 涉及 的 BLOC -1 5 £p, dysbindin, pallidin 和 muted 蛋白 组 成 复合 体 的 亚 
基 , 由 于 基因 突变 导致 dysbindin 缺乏 后 ,pallidin 和 muted 也 因 去 稳定 化 而 被 降解 (1。 

抗原 -抗体 续 合 地 是 一 类 特殊 的 蛋白 六 相互 作用 ,通常 在 制备 抗体 前 ,需要 根据 与 其 相 
互 作 用 的 抗原 决定 徐 ( epilope) 来 合成 或 设计 抗原 ,已 有 专用 软件 分 析 特 定 蛋 日 质 的 抗原 岂 
定 艇 。 丛 白质 的 相互 作用 可 以 通过 生物 信息 学 方法 加 以 预测 ( 详 见 第 6 章 ) ,但 目前 主要 还 
是 通过 实验 的 方法 贡 以 确认 蛋白 间 的 相互 作用 。 这 些 方法 包括 酵母 双 森 菇 系统 (yeast two 
һурпа, Y2H) |j HE SEDLUE ( co - imnunoprecipitation, co - IP) GST 标记 和 蛋白 共 分 离 (GST — 
pull down) 技术 等 。 

广 六 的 蛋 帕 相互 作用 除 形 成 复合 体外 ,也 包括 同一 生化 代谢 途径 或 信号 传导 途径 的 相 
关联 的 - -系列 酶 或 恒 户 质 , 详 见 2.1.4 代 谢 组 ”的 内 容 。 

{2) 价 白质 的 定位 ” 腊 结 构 和 细胞 皮 哥 (cytoskeleton) 是 真 核 细胞 的 两 种 最 基本 的 组 成 
结构 。 灿 结构 包括 质 膜 ,细胞 器 膜 , 核 膜 ,其 功能 主要 是 将 特定 的 代谢 途径 限定 在 -- 定 场所 
内 或 膜 表面 进行 。 细 胞 桨 内 的 生化 反应 以 及 细胞 器 的 分 布 则 是 通过 与 细胞 骨 黑 的 相互 作用 
而 调和 仓 。 重 妆 质 的 定位 可 粗略 分 为 膜 关 联 蛋 白 和 非 购 关 联 和 蛋白 两 大 类 。 世 就 是 说 ,细胞 内 
生化 反应 体系 的 酶 和 和 蛋白质 可 定位 于 细胞 桨 ,细胞核 .腊肉 部 ‚ЖЕЕ ЛЫ Р A sk ЕРШЕ 
如 相关 联 。 明 确 每 种 重 白 质 的 细胞 内 息 位 有 助 于 了 解 其 生物 学 功能 和 病理 改变 。 

Jia $E Ei УВЕЗЕ FA ,不 与 任何 细胞 器 相关 联 ,通常 在 胞 桨 核糖 体内 合成 ,作用 于 
胞 兹 内 可 洋 性 代谢 物质 ,或 与 细胞 骨 沈 相互 作用 。 胸 桨 内 的 游离 核 灶 体 合成 的 重 白 质 也 捧 
直接 运送 到 细胞 核 内 或 线粒体 、 过 氧化 物体 中 。 核 蛋白 的 特异 性 定位 由 其 内 部 的 7~9 个 呈 
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碱 性 的 氨基 酸 ( 又 称 细胞 核定 位 序列 ) 所 决定 ,在 胞 浆 内 合成 后 ,通过 核 膜 小 孔 进入 细胞 核 
Vj. 线粒体 和 过 和 氧化 物体 的 特异 性 定位 分 别 由 N 端 12 ~30 个 两 性 氨基 酸 和 C 端 SKL 序列 
所 决定 。 其 余 细 胞 器 的 蛋白 是 由 内 质 网 合成 并 经 Golgi 体 修 饰 后 ,通过 小 泡 转运 而 得 到 ,其 
转运 方式 参见 2.1.5.5" 小 泡 转运 ”。 这 类 细胞 器 蛋白 前 体 ( preprotein ) 的 N 端 通常 具有 一 
段 前 导 序列 (leader sequence) 或 称 信号 肽 (signal peptide) , 引 导 和 蛋白 进入 内 质 网 后 ,被 蛋白 
酶 分 解 。 分 泌 型 蛋白 也 是 通过 小 泡 转运 方式 运送 到 细胞 外 的 。 

人 蛋白质 转运 前 须 经 过 折 秋 (folding) ,一 般 在 内 质 网 中 进行 。 先 经 二 硫 键 异 构 酶 作用 形成 
二 硫 键 ,进一步 受 多 肽 异 构 酶 作用 形成 空间 构象 ,再 在 伴 护 蛋白 ( chaperone ) 的 协同 下 进一步 
折 倒 和 自我 装配 。 蛋 白质 折 秋 后 可 防止 其 渗 漏 出 内 质 网 或 被 降解 。 FUB ТЕЕ y SX ë BS 
蛋白 质 才 能 被 小 泡 运送 出 内 质 网 ,进入 Golgi 体 。 未 按 正确 方式 折 笃 的 蛋白 被 泛 素 (ubiquit- 
in) 结合 ,在 胞 浆 中 的 蛋白 体 ( proteosome) 内 被 蛋白 酶 降解 ,参见 图 2 -2 和 图 2 -3。 
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H2-2 蛋白 质 在 内 质 网 中 的 折算 
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图 2-3 蛋白 质 折 蚕 与 降解 示意 图 
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对 照 ,进行 共同 定位 。 常 用 的 方法 如 免疫 荧光 技术 ‚БИЗЕ ЛЕ xr Rd f НАЛЕ Ж, 
细胞 器 分 离 / 质 谱 分 析 技 术 等 。 汪 弓 质 的 定位 还 与 其 一 级 结构 有 大。 道 过 生物 信息 学 分 析 
蛋白 质 的 结构 域 或 基 序 (motif) ,也 可 对 某 些 新 发 现 蛋 白质 的 定位 进行 孩 测 。 


2.1.4 代谢 组 :生化 代谢 途径 和 信号 传导 途径 ”…” 

2.1.4.1 生化 代谢 途径 

人 人 体内 的 化 学 反应 通常 是 由 多 种 反应 有 和 机 地 结合 并 按 竺 定 方 式 进行 的 , 称 为 代谢 途径 
( pathway); FRATRI metabolism ) 分 物质 代谢 和 能 量 代 谢 蝴 种 , 按 代谢 物 的 去 向 又 分 为 合 
成 (anabolic) 氏 谢 和 分 解 (eatabolic ) 代谢 两 种 途径 。 合 成 代谢 是 指 合成 原料 氨基 酸 . 单 糖 、 
上 脂肪酸 、 含 氮 碱 基 等 在 一 系列 酶 促 反 应 下 合成 生物 人 人 分子 ( 如 和 蛋白质、 多 粮 . 脂 类 ,核酸 等 ) 
的 过 程 ,通常 是 帝 要 能 量 的 。 分 解 代 谢 则 相反 ,这 些 生物 大 分 子 如 蛋 申 质 、 多 糖 和 脂 类 先 被 
降解 为 其 侣 成 库 料 ,再 转变 为 乙酰 辅酶 A, 进 … 步 经 一 徐 酸 循环 分 解 为 二 氧化 碳 和 水 ,并 释 
放 能 量 ,核酸 则 最 后 分 解 为 氨 。 代 谢 过 程 错综复杂 .纵横 交错 ,但 又 相 握 联系 .相互 调节 。 疼 
2 -4 为 体内 主要 代谢 途径 的 网 络 示意 图 。 代 谢 途 径 的 调节 除 受 化 学 平衡 反应 的 底 物 或 产 
物 浓度 .抑制 物 等 的 调节 外 ,还 受 细胞 内 外 的 激素 .神经 递 质 的 信号 传 当 系统 的 调节 , Sr sh ta 
内 的 代谢 遵循 定 的 规律 ,以 满足 机 体 活动 的 党 要 。 已 建 并 有 闫 代谢 网 络 及 其 调节 的 专门 
数据 库 KEGG( http://www, genome. ad. jp/kegg/) . 
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图 2-4 生化 代谢 途径 的 相互 联系 
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2.1.4.2 4354$ 914 ( signal transduction pathway) 

细胞 与 细胞 间 的 交流 与 对 话 是 根据 细胞 对 外 鼻 信 号 的 反应 而 进行 的 。 这 种 绸 胞 间 的 交 
流 可 以 依靠 网 胞 的 相互 接触 或 缝隙 连接 ,但 更 远 的 交流 只 有 依靠 体液 中 的 激素 或 神经 递 禹 
的 信号 传导 系统 。 信 号 传导 到 细胞 内 : 般 是 通过 细胞 表面 受 体 或 细胞 内 受 体 介 导 。 一 些 类 
固 醇 激素 .维生素 D 等 脂 深 性 物质 可 直接 透 过 质 膜 与 位 于 胞 桨 或 细胞 核 内 的 特异 竹 受 体 结 
会, 形成 受 体 复合 物 , 与 DNA 的 调节 部 位 结合 ,影响 基因 的 表达 .， 激素 或 神经 递 质 的 信号 传 
导 更 主要 的 方式 是 遂 过 细胞 膜 表 和 面 受 体 结合 ,引起 构象 的 变化 , 产 牛 跨 腊 信号 ,能 发 纲 胞 内 
一 系列 级 联 反应 (cascade) ,最 终 影响 基因 的 表达 。 这些 受 体 传导 途径 主要 分 为 3 类 ;有 些 
是 与 膜 离 子 通道 相互 作用 ;有 些 是 膜 受 体 本 身 共 有 五 氨 酸 和 蛋白 激 昌 的 活性 ,对 东 电 已 中 TY 
残 基 进 行 磷酸 化 ;有 些 是 第 一 信使 与 膜 受 体 结合 后 激活 第 二 信使 而 发 挥 作用 , 参 风 图 2 -5。 
常见 的 第 一 信使 包括 环 核 苷 酸 、 钙 离子 - 磷脂 酰 肌 醇 .一 氧化 握 ( NO) PH RICE ( ceremide) 
等 。 参 与 信号 传导 途径 的 借 扬 质 种 类 繁多 ,主要 包括 蛋白 激酶 (protein kinase? S CHIENS 
( protein phosphatase) , Sfr — Й Ki ( GTPase ) ‚57 {Ж ( receptor) ,衔接 重生 ( adapter protein ) 
Ak. Ji BUE EB UE (E r iS rH ЖШ ЕЕ ВЕН. 


受 体 直接 与 效 受 体 通过 第 二 信使 
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腊 电 位 改变 蛋白 质 磷 酸化 cAMPIKELRE) ЖМИ, UHR 
RENTE MNRE 内 钙 离 子 浓度 升 高 


图 2-5 情 号 传导 中 受 体 的 作用 


(1) 激 更 组 ”蛋白质 磷 酸化 (phosphorylation) e Ei Fi Bf Jc: ë Hi rp BS 52 6 307r 3X, n] 
发 生 在 一 系列 代谢 过 程 或 信和 号 传导 途径 ,对 体内 代谢 酶 活性 的 调节 、 售 号 传导 的 级 联 反应 、 
细胞 运动 . 膜 通道 活性 ,细胞 核 的 装配 .细胞 周期 调节 等 都 起 着 非常 重要 的 作用 。 蛋 白质 磷 
酸化 后 可 影响 其 与 其 他 蛋白 或 配 体 (ligand) 的 相互 作用 ,或 引起 其 构象 变化 ,导致 其 活性 改 
abd PC BUS Ou. 磷酸 化 的 结果 可 以 使 某 - 途径 开放 ,也 可 和 使 之 关闭 。 体 内 磷酸 
化 过 程 都 是 在 -- 类 称 为 蛋白 激酶 (总 称 激酶 组 ” ,kinome) B E H F ETE BS CP ERR ED SR 
酸 基 团 的 水 解 , 则 是 在 蛋白 磷酸 酶 的 作用 下 进行 的 。 

真 核 牛 物 中 ,99% 以 上 的 重 白 质 磷酸 化 发 生 在 丝氨酸 (Ser) 或 苏 损 酸 (Thr) 残 基 上 ,只 有 
极 少 数 发 生 在 酯 氨 酸 (Tyr) 残 基 上 ,如 上 面 提 到 的 一 些 具有 了 酯 氨 酸 蛋白 激酶 活性 的 膜 受 体 ， 


它们 对 信号 传导 系统 起 着 重要 的 调节 作用 。 此 外 ,组 氨 酸 (His) ë 900 C Asp) 也 可 能 发 
生 磷酸 化 ,得 对 信号 传导 的 作用 尚 不 明确 。 央 此 ,参与 信号 传导 系统 的 蛋白 激酶 主要 分 为 两 
大 类 , 即 Ser/Thr EARE Tyr 蛋 电 激酶 。 这 些 沿 酶 分 属 不 同 的 蛋白 家 族 , 常 具有 一 定 的 
结构 域 ,参与 不 同 的 凋 节 过 程 ,发 挥 不 同 的 生理 功能 ， 

《2) 第 二 信使 系统 ”作为 第 二 信使 的 环 核 昔 酸 主 间 为 环 腺 背 酸 (ecAMP) 3034.8 + BB 
(cGMP). Е cAMP 的 形成 为 倒 , 是 在 腺 昔 酸 环 化 酶 的 作用 下 , 巾 ATP 转变 和 而 来 , 腺 昔 酸 环 
化 酶 活性 本 身 又 受 G ЖЕЛЕ , Gs 蛋白 促进 其 活性 ,Gi 蛋白 抑制 其 活性 。G 蛋白 起 体内 
广泛 存在 的 一 类 GTP 结合 蛋白 ,又 称 岛 音 酸 二 磷酸 酶 ,简称 GTPase, 主要 包括 以 下 几 类 :小 
Р GTPase( 如 Arf, Rab, Ras, Eho, Han, Sar 等 ) , = 4i G RA, ETE |N. $E Tu GTPase, 
Dynamin 3E, £s ДЕ ii BRYCE TER) G 蛋白 属于 三 亚 基 G 蛋白 ,其 静态 形式 ( 失 活 ) 
H GDP 5i f , 245; СТР 结合 后 ,其 他 亚 基 解 高 ,剩余 的 = 亚 基 才 具有 活性 ，G 蛋白 本 身 进入 
再 生 循 环 ,在 -… 系 列 酶 作用 下 形成 CTP 或 СОР 结合 形式 。 傅 号 传导 途径 中 ,这 类 G ЖЧ 
先 与 膜 七 螺旋 (seyen — helix) 受 体 结合 后 被 激活 ,促使 cAMP 的 生成 。 体 内 有 一 系列 cAMP 
依赖 的 重 上 门 激酶 ,这 类 激酶 由 催化 亚 基 和 洞 节 亚 基 组 成 。cAMP 与 调节 业 基 结合 后 ,释放 出 
ЖИЛЕ ҖЕ, п] ЖЕКИ! I Fa P Thr 或 Ser RA E Go BE Rk BB (E, VERE TEE £3 DU] Az HA 09 7 E- 
ЖЕШ. WS fy EE АДЕЙИ nj {ЕЖЕ BS RRB TERI F 2:9 Е, cAMP 也 在 磷酸 二 酯 酶 的 作用 下 
水 解 为 5”- AMP 而 失去 其 第 二 信使 的 功能 ，eGMEP MERAH HS aB ВЕК In] E: ë, 
PEHR TAIRA Hor. ОЕК SER N 

许多 受 体 与 激素 或 神经 递 质 结合 后 ,激活 与 膜 结合 的 硫 脂 酶 C ,其 激活 方式 与 腺 苷 酸 环 
TEBEHMDL ,需要 GROSS., ЕБИНЕ C 可 将 膜 结合 的 磷脂 酰 肌 醇 1,4,5 - = SERERE 
水 解 为 肌 醇 1 ,4,5 - 三 磷酸 和 一 卫 基 甘油 ,两 者 均 可 作为 第 二 信使 发 挥 作用 。 肌 醇 1,4,5 — 
三 会 酸 与 内 质 网 相应 受 体 结合 后 ,可 促进 鳃 池 中 钙 离 子 的 释放 ,使 胞 浆 内 钙 离 子 浓度 迅速 增 
加 ,与 钻 调 重 口 (ealmodulin) 形 成 复合 物 ,使 岩 白 构象 发 生 改 变 , 许 多 蛋白 质 就 是 受 这 种 钙 调 
蛋白 复合 物 的 调节 而 发 挥 作用 。 肌 醇 1,4,5 - 三世 酸 可 被 地 速 去 磷酸 化 生成 肌 醇 1,4 -二 
磷酸 和 肌 醇 1 -磷酸 ,后 两 者 不 能 发 挥 第 二 信使 的 功能 。 一 酰基 甘油 作为 第 二 信使 可 促进 
SR UB C 与 钙 离 子 的 结合 而 使 该 酶 被 激活 ,参与 一 些 蛋 召 质 磷 酸化 而 发 挥 作用 。 一 酰基 甘 
ARAALE 1,4,5 - МЕИЕН. 

NO 被 友 现 作为 血管 平滑 肌 松 弛 剂 ,其 有 扩张 血管 功能 。， 共 作用 方式 也 是 作为 第 二 信 
使 发 挥 作用 。NO 的 形成 是 在 NO 合成 酶 的 作用 下 ,经 NADPH ,0: 参 与 , 足 由 工 - 精 所 酸 转 
变 为 瓜 氨 酸 的 反应 中 生成 的 。FMN FAD, 血红 素 以 及 四 氧 生物 蝶 叭 是 该 酶 的 辅酶 。 肿 六 
坏死 因子 或 某 些 纲 胞 因子 如 白介素 - 1, 可 促进 NO 合成 酶 的 合成 。NO 合成 后 ,可 活化 胞 浆 
内 的 马华 酸 环 化 酶 ,生成 的 cGMP 可 能 激活 蛋白 激酶 上 ,使 一 些 蛋 户 质 磅 酸化 ,导致 血管 平 
请 肌 松 弛 ,此 外 ,NO 也 具有 防止 秋 小 板 上 凝集 ,促进 炎症 反应 中 巨 噬 细 胞 的 吞噬 功能 ,还 能 
发 挥 中 枢 内 神经 骨 质 的 作用 。 

(3) 受 体 组 ;信号 传导 爱 体 的 分 类 与 效应 ”信号 传导 系统 极其 复杂 。 药 物 或 体内 一 些 
物质 可 作为 受 体 的 持 抗 剂 (agonist) 发 挥 作 用 ,同时 信号 传导 中 又 存在 反馈 环 , 以 促进 或 换 制 
传导 过 程 。 细 胞 内 各 类 受 体 的 总 和 称 为 受 体 组 (receptome)。 信 号 传导 系统 中 涉及 的 受 体 
以 膜 受 体 为 主 。 图 2 -5 为 信号 传导 受 体 途径 示意 图 。 以 下 列 出 一 些 常 见 的 信号 传导 过 程 


#2# аы n ——— 


的 受 体 途径 及 其 效应 。 

1) 受 体 / 离 子 通道 一 膜 去 极 化 或 膜 效 透 性 改变 ; 

2) 七 螺旋 受 体 一 一平 基 GTP 结合 C 蛋白 一 多 种 不 同 效 应 ; 

3) 受 体 /组 氨 酸 激酶 一 调节 物 一 基因 表达 Ru 5955; 

4) 酷 氮 酸 激酶 受 体 一 ras，MAP 激酶 ,PLC ,PB 激酶 一 细胞 增殖 .分 化 等 ; 

5) 细 胞 因子 受 体 一 JAK 激酶 一 STAT 转录 因子 一 基因 表达 ; 

6) 酷 氨 酸 激酶 偶 联 爱 体 一 胞 浆 酷 氨 酸 激酶 一 基因 表达 ， 

DER -PAR ZARA Smad 转录 因子 一 基因 表达 调控 ，; 

8) 膜 鸟 苷 酸 环 化 酶 受 体 一 cGMP 一 激酶 或 通道 重 自 的 调节 一 血管 扩张 .受精 等 ， 

9) 神 经 鞘 磷脂 酶 侦 联 逐 体 一 藉 气 醇 活化 激酶 一 基因 去 达 、 细 胞 凋 亡 等 ; 

10) 2 (integrin) 一 非 受 体 性 酷 氨 酸 激 酶 一 多 种 反应 ,如 纪 胞 运动 .基因 表达 等 ; 

ЇТ) Ж Cselectin) 一 细胞 黏附 ; 

12) Cadherin—- Бе И ; 

137Noteh 一 细胞 命运 ; 

14) 刺 狂 (Hedgehog) 受 体 一 细胞 分 化 ; 

15) 细 胞 桨 鸟 营 酸 环 化 酶 受 体 cGMP 一 激酶 .通道 蛋白 等 ->N0 第 一 信使 系统 : 

16) 细胞 浆 类 固 醇 受 体 一 激活 转录 因子 一 基因 表达 。 

(4) 信和 号 传导 通路 ”以 上 分 别 叙 述 了 信号 传导 途径 中 一 些 关键 的 牧 质 。 性 内 信号 传导 
通过 整合 这 些 物质 ,构成 … 条 完整 的 通路 ,完成 细胞 外 信和 号 向 细胞 内 的 传导 。 这 些 传导 道路 
根据 信号 的 种 类 不 同 , 选 择 的 途径 也 不 同 。 每 条 通路 又 涉 上 太 :系列 的 步骤 ,极其 复杂 ,有 些 
通路 已 基本 明确 , 右 些 通路 中 的 某 些 坏 节 尚 不 清楚 ,新 的 信和 苇 传 导 方 式 尚 在 不 断 发 现 之 中 。 
目前 基本 明确 的 几 种 主要 信号 传导 方式 包括 以 下 儿 种 。 

1)G RARE .经 七 蝎 旋 跨 膜 受 体 的 传导 通路 :如 嗅觉 传导 .视觉 反应 .经 呈 肾上腺 素 受 
体 的 代谢 调节 等 。 

2) 影 响 基因 表达 的 传导 通路 :如 类 固 醇 激素 .甲状 腺 素 激 活 核 内 爱 体 :带电 荷 的 小 分 
子 .和 多肽 或 蛋白 质 ( 如 细胞 因子 .TGF — 8 ,TNF Notch, Hedgehog, Wot TOR 等 ) 经 膜 受 体 激 活 
ВЗК ру, 

3}) 由 分 裂 素 活化 但 和 白 激酶 (mitogen - activated protein kinase, МАРК) 到 细胞 核 的 传导 
通路 :如 生长 或 分 化 因子 ( 含 冶 基 因 和 抑 癌 基因 产物 ) ДУЗ bz nr .细胞 润 廊 等 。 多 细胞 生物 
中 ,已 明确 3 种 常见 的 MAPK feriis :CDADIRA M E SET REB extracellular signal — regula- 
ted kinase, 了 RK) 途 径 ,控制 细胞 分 型 .其 抑制 剂 多 用 做 抗 癌 药 物 :Gic - Jun 氨基 末端 激酶 4e 
— Jun amino - terminal kinase，JNK ) 族 径 ,是 转录 过 程 的 关键 调节 物 ,JNK 抑制 剂 可 用 做 类 
风湿 性 关节 炎 的 治疗 ;p38 МАРК 途径 ,被 炎症 性 细 胸 因子 或 环境 应 急 内 素 激活 ,通常 与 
哮 哈 和 白 身 免疫 疾病 有 关 。MAPK 磷酸 化 中 继 系统 参见 图 2 -6 ” 。 

[5) 常 用 的 信号 传导 途径 网 站 一 

1) =% МАРК j&15 : http :// kinase, осі. utoronto. ca/signallingmap. html, 

2 M& S45 SE TER H: PubMed В: http://www — personal. umich. edu% 7 Eino/ 
List” a 


46, 
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”图 2-6 ЖЕЕ МАРК 磷酸 化 中 继 系统 


3) 信 和 号 传导 基因 序列 :http:ZLwlib, org/ Science/Cell. Biology/'signal, transduction. shtml, 
4) 信 叶 传 导 研 究 常 用 抗 体 :htp:ZLwnrw,cellsignal, com, 
5) fii — Fe SEES TS T ZB :http:A/stke. sciencemag. orgo Mft STKE 使 用 费 ,必须 是 美国 科 
学 促进 会 (AAAS) 会 员 才能 进入 。 


2.1.5 细胞 组 : 细胞 器 的 结构 与 功能 5 

生物 体内 每 种 细胞 都 担负 起 特定 的 生物 学 功能 。 每 个 细胞 者 会 经 历 一 系列 的 活动 ,如 
与 周围 环境 的 相互 作用 ;合成 或 再生 各 日 细胞 内 的 成 分 :对 理化 因素 引起 的 损伤 进行 村 复 ; 
细胞 生长 和 繁殖 ;产生 能 量 供 细胞 活动 所 需 。 这 些 基 本 的 细胞 活动 都 是 在 细胞 器 内 完成 。 
传统 意义 上 所 谓 的 细胞 器 ,是 指 光 学 或 电子 显微镜 下 可 见 的 细胞 内 被 膜 所 包 绕 的 具有 独特 
形态 特征 的 结构 ,如 质 膜 、 内 质 网 ,Colgi 体 、 溶 酶 体 . 过 氧化 酶 体 .线粒体 等 。 细 胞 组 是 研究 
细胞 肉 所 有 细胞 器 .细胞 核 .细胞 桨 以 及 细胞 外 基质 的 结构 与 功能 ,细胞 间 的 相互 作用 等 ,是 
细胞 生物 学 的 主要 研究 对 象 。 

2.1.5.1 ЖА ( plasim membrane, PM) 

ЖЕ ЕНИ а Ree H Hs ЖЕЛШ ЖЕ LER FERE Hc [e] £8 ДУ) ДЕ ЛЕ АХ р. Б Ж ЕЕ УЕ ЖИН [83 
BZ, ЕЛЕЕ ЗЯ Т] ШЕ 2E РУ А А РК ЖЕЛЕ ( ECM ) 00], ИК АЛЕКО TU T И. 
撒 成 脂 双 层 (bilayer) ЖЕ RB [E] BE B Est БЕЛЕН PE LH НЕШ. R 3 КАБИНЕ F 
脂 双 层 内 部 。 脂 双 层 结构 具有 流动 性 和 不 对 称 性 的 特点 。 膜 蛋白 分 内 在 蛋白 {integtul pro- 


йон ipm erg 
SA 
tein) ЖК ЖЗ ( peripheral protein) WI, EAE Sis A JBE ЕН Ж ГНИ | Ж 
AE RR RE АЛАШ НОЯН, vx BERE m УЗЕ ДИЙЛ ЛЕТ Бы ЖП. 

и И Rs AL E P RAER ER — Вр, E HB RC ER ER ЛЕ) ЕАЭК, 2H R 
Ва ES. REI ЈЕ ВЛЕЕ C lipid rafts) ,在 细胞 内 外 物质 交换 中 起 重要 作用 , 膜 脂 述 可 僚 
与 信号 传导 。 膜 和 蛋 所 主要 发 挥 : OZ {k (receptor) JEE (channel) , 2 K ( carrier) , Я 
( pump) 的 运载 功能 ; 贸 进 行 细胞 内 外 的 信号 传导 ; 怨 指 导 细 胞 的 鞭 向 运动 ; 轴 介 时 细胞 与 细 
胞 或 细胞 与 出 胞 外 基质 癌 的 相互 作用 。 

细胞 的 运载 功能 和 信号 传导 功能 决定 细胞 内 的 :系列 生化 芭 点 的 发 和 朱 和 生物 学 功能 的 
发 挥 ,是 细胞 最 基本 的 活动 形式 ,也是 细胞 的 生物 尝 功 能 中 最 为 复 洒 的 形 陈 。 

人 体内 或 许多 高等 动物 中 舍 有 200 多 种 不 同 的 细胞 类 型 。 这 些 不 同 细胞 类 型 的 相互 作 
用 即 构成 组 织 和 右 官 。 细 胞 与 细胞 的 相互 作用 主 要 通过 质 膜 来 完成 。 细 胞 与 细胞 可 形成 不 
同形 式 的 连接 方式 ,如 屏障 连接 ,黏附 连接 ,缝隙 连 接 、 突 触 连接 等 。 细 胞 与 基质 问世 形成 笑 
附 连接 。 这 些 相互 作用 ,使 网 胞 与 细胞 .细胞 与 周围 环境 之 间 形 成 灾 互 连 接 网 络 , 可 进行 物 
质 与 信息 的 交流 。 

2.1.5.2 AA M (endoplasmic reticulum, ER) 

内 质 网 是 许多 细胞 中 最 明显 的 细胞 器 . 占 所 有 膜 结构 的 Е Е. HEGIA, EE 
或 网 槽 (cisternae] 状 ,或 分 枝 细 管状 ,或 扩张 的 宫 状 结构 。 所 形成 的 内 疏 体 积 约 占 整个 细胞 
的 10% „ ER 的 主要 生物 学 功能 是 除 线粒体 和 过 氧化 物体 以 外 ,所 有 膜 结构 中 脂 质 和 和 蛋白 
质 合 成 的 主要 场所 ,也 是 分 小 型 蛋白 质 和 细胞 器 中 腔 内 肖扬 合成 的 主要 场所 ,同时 ER 还 参 
与 解毒 利 钙 离 子 的 调节 作用 ，ER 又 分 为 粗 面 内 质 网 (RER) 利 滑 而 内 质 网 (SER) AX. ЯП 
而 内 活 网 是 由 丁 其 胞 浆 曾 含有 十 富 的 核糖 体 。RER 是 蛋 上 白质 合成 的 主要 场所 ,SER 则 是 解 
毒 和 脂 类 合成 的 主要 场所 -。 

2.1.5.3 高 尔 基体 (Golgi Apparatus) 

高 尔 基体 是 由 扁平 网 异 状 膜 结 构 组 成 。 高 尔 基体 具有 方 和 性 ,接收 货物 的 一 夯 称 为 顺 
H (eis) ,输出 货物 的 - 面 称 为 反面 (tirens)。 高 人 尔 基 体 被 比 做 细 腹 的 邮局 ,对 来 日 ER 的 货 
S EAER 进行 包装 (小 泡 形 成 ?和 修饰 ( 如 粮 基 化 ) ,然后 将 货物 集中 刘 货 运 站 ( 反 
xke AKI, trans - Golgi network, TGNO ， 再 按 拓 定 地 点 将 焦 物 发 送出 去 。 和 货物 去 加 主 
Зз УЛА ДЕ .出 胞 或 到 浴 酶 体 。 

2.1.5.4 ЖЕ Ж (lysosome, LYS) 

溶 酶 体 被 喻 做 细胞 的 消化 器 官 。 由 膜 结 构 包 绕 , 内 含 丰富 的 酸性 水 解 酶 。 溶 酶 体 的 声 
成 是 由 来 自 高 水 基体 的 小 泡 与 内 涵 体 {endosome, F.) 融合 而 成 的 球形 或 不 规则 的 结构 。 深 
酶 体内 的 pH 值 较 低 , 主 要 依靠 膜 上 的 质子 泵 维持 。 深 酶 体 除 降解 淖 魏 质 或 脂 类 外 ,还 参与 
膜 损伤 的 收复 过 程 。 . 

溶 酶 体 相 关 细 胞 器 (lysosome — related organelle, LRO) Æ -类 与 深 橱 体 结构 类 似 的 ,分 
布 于 特殊 细胞 中 的 细胞 器 , 其 形态 各 异 。LRO 的 共同 点 是 低 pH 值 ,含有 溶 酶 休 膜 特异 性 标 
记 蛋 白 (LAMP) , f riz dic ne p eic p , А (5, 2 p Aer ch К (6, О k rm Ц 35 E EZ S a 
的 Lamellar 小 体 БИЛЕ ЙЕ 5t A iL) МНС, qb 359 8 АУ rb ЕЖЕ ЖЕШКЕ A 
然 杀 伤 细胞 的 深 解 小 体 等 。 其 形成 涉及 多 个 蛋白 质 复合 体 (BLOC -1,2,3) 的 参与 。 这 些 
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复合 体 成 分 的 缺陷 ,会 导致 LRO 形成 或 功能 障碍 ,引起 多 器 官 不 同 程度 受累 ,如 出 血 倾向 、 
眼皮 肤 白化 病 、 肺 纤维 化 、 免 疫 缺 陷 等 ,临床 上 被 诊断 为 Hermansky - Pudlak 综合 征 (HPS) 、 
Chediak - Higashi 综合 征 等 ”" ,已 建立 针对 Hps 基因 的 专门 数据 库 ,参见 http://falcon. 
roswellpark. org。 

2.1.5.5 小 泡 转 运 (vesicle trafficking) 

除 线粒体 和 过 氧化 物体 外 ,细胞 内 所 有 细胞 器 的 生物 合成 所 需 的 蛋白 质 和 脂 类 都 是 从 
ER 转运 而 来 ,其 转运 方式 是 通过 小 泡 (vesicle) 来 完成 。 小 泡 实现 货物 运送 一 般 经 过 出 芽 
( budding) „ХЕ ( docking) 融合 (fusion) 等 过 程 ,将 来 自 供 体 的 货物 转运 到 靶 向 细胞 器 内 ， 
参见 图 2 -7。 此 过 程 涉及 几 十 甚至 几 百 种 蛋白 成 分 和 一 些 有 机 或 无 机 物 (IP,，Ca2+ ^5), 
目前 认为 ,高 等 真 核 生物 在 进化 过 程 中 还 具有 其 独特 的 不 同 于 低 等 真 核 生 物 或 原核 生物 的 
转运 途径 ,但 其 确切 机 制 尚 不 明确 0 。 


被 覆 蛋 白 
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受 体 膜 
2-7 小 泡 形 成 中 的 出 泡 、 销 定 和 融合 过 程 示意 图 


图 2 -8 总 结 了 细胞 内 小 泡 转运 的 全 过 程 "”。 小 泡 可 分 为 两 大 类 :一 类 无 内 涵 素 
(clathrin) 被 覆 ; 男 一 类 有 内 涵 素 被 禾 。ER 和 Golgi 体 之 间 的 物质 转运 方式 ,目前 尚 有 争议 。 
两 种 无 内 涵 素 被 覆 , 但 有 包 被 蛋白 (coat protein, COP) 的 小 泡 参 与 其 转运 过 程 。COPI 主要 
介 导 ER 到 Golgi 体 的 转运 ,COP I 则 主要 实现 从 Golgi 体 到 ER 的 逆向 转运 。ER 中 的 管 腔 
蛋白 和 膜 蛋白 一 般 分 别 带 有 KDEL 和 KKXX (X 代表 任何 氨基 酸 ) 的 特征 结构 ,是 货物 运送 
的 标签 。 溶 酶 体 蛋 白 的 标签 是 被 甘露 糖 -6 - 磷酸 (M6P) 修饰, 被 溶 酶 体 上 的 M6P 受 体 所 
识别 。 

H ТСМ 的 外 运 渠 道 主要 包括 3 类 :一 是 通过 小 泡 转运 到 质 膜 ,形成 质 膜 的 组 成 成 分 , 称 
为 结构 性 转运 途径 ( constitutive transport) ;二 是 形成 分 沁 型 小 泡 , 受 激素 等 细胞 内 外 因素 调 
节 进 行 出 泡 (exocytosis) ,将 所 携带 的 物质 分 泌 到 胞 外 , 这 种 方式 称 为 调节 性 转运 途径 (re- 
gulated transport) ;第 三 种 方式 是 形成 有 内 涵 素 被 覆 的 小 泡 ,经 过 内 涵 体 转运 到 溶 酶 体 ,这 种 
途径 称 为 内 涵 体 转运 途径 (endosomal transport) 。 内 涵 体 分 早 .晚期 内 涵 体 (EE 和 LE) , LE 
又 被 称 做 多 泡 体 ( multivesicular body，MVB ) 。 内 涵 体 转运 途径 中 ,涉及 3 种 以 上 的 内 涵 素 
被 覆 小 泡 ,分 别 命名 为 AP1 ,AP2 和 АРЗ 等 。AP1 和 АРЗ 主要 是 从 TGN 到 内 涵 体 或 溶 酶 体 ， 
经 АРЗ 运送 的 蛋白 质 通 常 具 有 双 亮 氨 酸 或 富 含 酷 氨 酸 的 标签 。AP2 小 泡 运送 是 从 质 膜 经 
内 涵 体 到 溶 酶 体 ,也 被 称 为 胞 吞 作用 (endocytosis) 。 经 AP2 途径 的 胞 吞 作用 ,首先 在 质 膜 形 
成 被 覆 小 四 ( coated ри) ,与 AP2 小 泡 融 合 后 ,内 涵 素 解 离 ,剩余 的 小 泡 结构 与 内 涵 体 融合 ， 
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后 者 参与 溶 酶 体 的 形成 。 这 种 运送 方式 最 经 典 的 例子 是 LDL 受 体 途径 。 另 一 种 不 依赖 
AP2 小 泡 的 胞 吞 作用 是 形成 穴 样 结构 ( caveolae) ,直接 将 所 包 绕 的 货物 运送 到 Golgi 体 或 
ER ,而 不 是 内 涵 体 或 溶 酶 体 ,这 也 被 称 为 胞 饮 作用 (cell drinking) 。 

2.1.5.6 线粒体 (mitochondria) 

线粒体 普遍 存在 于 需 氧 呼 吸 的 真 核 细胞 的 细胞 质 中 ,是 细胞 内 能 量 产 生 的 场所 ,又 称 细 
胞 动力 工厂 ,是 细胞 内 АТР 合成 和 氧化 磷酸 化 的 场所 ,也 参与 细胞 内 Ca^ * 的 调节 和 细胞 凋 
亡 (apoptosis) 的 信号 传导 (细胞 色素 C 的 释放 ) 。 线 粒 体 是 细胞 核 外 惟一 含 ОМА 的 细胞 器 ， 
其 DNA 组 成 类 似 原核 生物 。 线 粒 体 DNA ( mitochondrial DNA ,mtDNA ) , 又 称 线粒体 基因 组 
( mitochondrial genome) ,全 序列 在 1981 年 由 Anderson 等 测定 ,是 一 个 含 16 569 bp 的 双 链 闭 
环 分 子 , 外 环 为 重 链 ,内 环 为 轻 链 , 共 编码 13 种 蛋白 质 .22 种 tRNA 分 子 和 2 种 rRNA 分 子 。 
这 ІЗ 种 蛋白 质 都 是 呼吸 链 酶 复合 体 的 亚 单位 。mtDNA 结构 紧凑 ,不 含 内 含 子 , 惟 一 的 非 编 
码 区 为 约 1 000 bp 的 D - 环 区 ,该 区 包括 mtDNA 重 链 复制 的 起 始点 和 轻重 链 的 转录 启动 
子 以 及 4 个 高 度 保守 序列 。mtDNA 两 条 链 的 碱 基 组 成 差别 较 大 , 重 链 含 С 较 多 , 轻 链 含 C 
较 多 。 重 链 编码 12 种 蛋白 质 、12S rRNA ‚165 rRNA 和 14 种 tRNA; 轻 链 仅 编码 一 种 蛋白 质 
(ND6) 和 8 种 tRNA。mtDNA 具有 两 个 复制 起 始点 ,分 别 作 为 轻 、 重 链 的 复制 起 点 。 转 录 启 
动 子 是 从 D - 环 开始 , 重 链 转录 按 逆 时 针 方 向 , 轻 链 转录 按 顺 时 针 方 向 。 

尽管 线粒体 能 进行 自主 复制 .转录 、 翻 译 和 分 裂 ,但 所 编码 的 蛋白 仅 占线 粒 体 蛋 白质 的 
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596 7-1, Ho BOE ELT ECREDS B 38485 ЕЕ 合成 的 和 蛋白质, 大 部 分 脂 类 也 来 源 于 ER。 蛋白质 
和 脂 类 直接 由 ER 或 Golgi 体 得 到 ,其 转运 不 依赖 杆 小 泡 运 送 。 线 粒 体 膜 分 内 膜 和 外 腊 琴 
层 , 仅 允许 分 子 质量 小 于 S ku 的 小 分 子 穿 透 。 内 膜 向 线 短 休 基质 内 伸 , 形 成 争 禄 。 每 个 组 
胞 含 数 百 个 线 立 体 ,每 个 线粒体 内 含 2~10 个 拷 见 的 mDNA 分 子 , 因 此 ,每 个 细胞 有 具有 数 干 
个 mtDNA 描 见 .同一 细胞 中 的 mtDNA. 可 相互 必用, 出现 混合 或 互补 现象, 但 不 发 生 重 组 ， 
在 某 些 特定 条 件 下 ,mtDNA 可 与 核 DNA 发 生 交换 或 重组 。mtDNA [ЧЕ Ex DNA 那样 的 
HEARR, HA DNA 损伤 的 修复 系统 ( 核 基 因 组 中 有 指导 mtDNA 修复 突变 的 基因 ) , 因 
此 ,每 个 mDNA 分 子 中 每 个 碱 基 都 可 能 发 生 突 变 , 天 突变 率 相当 高 , 约 为 核 DNA 的 10 倍 以 
上 二。 这 种 窜 变 嫩 可 发 生 在 体 细胞 ,也 可 发 生 在 牛 殖 细 胞 ， 发 生 在 生殖 细 胸 的 mtDNA 突变 可 
随 配 子 而 传递 给 下 一 代 , 其 遗传 方式 下 文 将 述 及 。 

2,1.5,7 iA Abt tk (peroxisome, PEX) 

过 氧化 物体 是 -种 类 似 小 泡 的 膜 样 结构 ,是 细胞 内 氧化 反应 的 主要 场所 ,肉食 大盘 产生 
过 氧化 氧 的 酶 ,后 者 在 触 酶 (catalasey 的 恺 化 作用 下 被 降解 ,同时 使 许多 物质 包括 细胞 毒物 
氧化 。PEX SARRAR, o A RaR ARA, AR PEX 的 囊 门 质 和 联 类 直接 在 胞 浆 内 侣 
成 而 被 送 人 。 

2.1.5.8 细胞 骨架 (cytoskeleton】) 

真 核 细胞 内 的 细胞 肯 架 由 -复杂 的 蛋白 样 细 经 (filamemt) 组 成 ,存在 于 胞 状 和 胞 核 中 。 
细胞 骨架 的 3 种 主要 形式 为 微 经 { microfilament) . 微 管 (microtubuley #0. [8] 2f 22 ( interme- 
diate filament, IF) , 

徽 丝 是 由 分 子 质 量 为 45 ku 的 肌 动 重担 tactin) 组 成 的 实体 华 状 结构 , 直 答 约 6 nm, h 
细胞 总 蛋 上 的 5 入 以 上 上。 主要 发 挥 支撑 和 维系 质 腊 的 作用 ,同时 参与 细胞 运动 .维持 细胞 形 
态 ,被 撒 容 为 "细胞 的 肌肉 ”。 许 多 蛋白 参与 肌 动 踢 日 由 可 溶性 球状 单 体 { 即 g — actin) $22 
XR A EU C f- асіп) АУ ТАЧ. 

微 管 是 真 径 约 25 nm 的 中 空 管状 结构 ,出 徽 管 蛋 日 (tabulin) 组 成 。 维 管 一 日 分 e -， 
B -和 ~-- 微 管 蛋白 3 种。 微 管 的 功能 是 维系 胞 浆 和 大 与 细胞 内 运动 ,并 与 许 包 动力 蛋白 
( motor protein) 协 同 作 用 ,参与 小 泡 和 一 些 细胞 器 的 移动 。 此 外 , 微 管 在 细胞 分 裂 中 也 起 重 

中 间 细 丝 ( 正 ) 是 直径 约 10 nm 的 实体 丝 状 结构 ,由 一 个 或 多 个 极其 复杂 的 IF 蛋白 家 族 
组 成 ,存在 于 胞 浆 和 胞 核 具 ,主要 作用 是 加 固 胞 桨 和 云 撑 胸 核 内 膜 。IF 具有 组 织 特 异性 ,不 
同 组 织 的 ТЕ £A Bron [s]. IF 蛋白 旦 长 条 棱 状 结构 ,其 中 部 结构 域 宣 含 a — 螺旋 结构 。 正 
EARRA ARRET E, BARRE nE r iR. 

细胞 骨架 是 细胞 运动 的 物质 基础 ,能 量 (如 АТР) 的 供应 是 细胞 运动 的 动力 来 源 。 细 胞 
运动 的 主要 形式 为 细胞 内 运动 .细胞 变形 运动 (cell shaping) .细胞 趋 化 运动 (locomaerion) 、 细 
胞 沪 动 ( swimming) „АРЛА nl A 

2.1.5.9 细胞 核 (nucleus) 

21 tu kz 22 80 REL LAT Bz BH d АЈА, ИЕЛ EGO ЖН ЖЕРИ ЕРЕН He fe {Ж ЕЩ 
胞 核 的 基 车 物质 ,也 是 基因 的 载体 。 组 成 染色 恒 的 基本 物质 是 DNA 分 子 。 一 个 DNA 分 子 
组 成 一 条 染色 悼 。 人 类 基因 给 由 24 种 不 同 的 DNA 分 子 组 成 ,总 长 度 约 为 30 Z iC BS, 
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染色 体 的 基本 结 梅 单位 为 核 小 体 (nucleosome) 。 每 个 核 小 体 在 册 组 蛋白 组 成 的 八 聚 体 
(H2A, H2B, НЗ, H4 & 2 分 子 ) 的 基础 上 ,外 面相 绕 1.75 图 DNA ( 2 140 bp) ,两 个 核 小 体 
之 间 以 60 bp 的 DNA ДАЙ ЕНШЕ HT 形成 的 细 丝 相连 ,每 6 个 惊 小 体 绕 成 一 图 ,形成 空 
心 螺 线 管 。 以 此 为 基础 РЧЛ Е ВЕ ЕДИН А Е ВЕ Lk Г АО Я 
染色 单 体 。 遗 传 信息 的 传递 过 程 主要 涉及 细胞 核 的 生物 学 功能 。 

细胞 核 由 核 膜 包 绕 。 核 膜 分 内 腊 和 外 膜 两 层 , 核 腊 上 有 细小 的 核 乱 , 通 过 被 动 或 主动 转 
运 方式 与 细胞 核 外 发 生物 质变 换 , 转 录 形 成 的 mRNA 就 是 通过 核 孔 进入 核 精 体 ,参与 蛋白 
质 的 生物 合成 。 


2.2 生物 信息 在 细胞 间 的 流向 


细胞 分 裂 曾 ,DNA 以 半 保 留 复制 形式 将 DNA 复制 后 ,使 遗传 信息 由 亲 代 细胞 传递 公子 
代 细 胞 。 


2.2.1 细胞 周期 及 其 调控 

细胞 周期 (cell cycle) 是 指 两 次 纲 胞 分 裂 之 间 的 周期 。 在 此 期 间 , 细 胞 必须 复制 其 内 容 
物 并 等 量 分 配 到 两 个 子 代 细胞 中 ,遗传 信息 也 随 DNA 的 复制 和 细胞 分 裂 从 杀 代 细胞 流向 子 
代 细 胞 。 细 胞 周期 可 分 为 G,,S,G,,M 期 4 个 阶段 ,5S 期 即 合成 期 , DNA 的 复制 在 该 期 完 
成 。M 期 即 有 丝 分 欣 期 ,细胞 在 此 阶段 分 为 二 。 位 于 S 和 和 了 导 期 之 间 的 两 个 阶段 分 别称 为 
G, I G, 期 ,分 别 为 5S 期 和 了 MM 期 作 准 备 。 细 胞 周期 的 长 短 因 细胞 类 型 而 异 。… 般 地 ,分 裂 细 
С, 期 为 6~12h;S #276 -8 h;C, 期 为 3~4h;M 期 约 为 1h。 细 胞 离开 细胞 周期 后 进入 
ce 期 ,也 可 从 G, 期 重新 进入 细胞 周期 。 细 胞 周期 过 程 参见 图 2 -9。 
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aak DNAR E 未 复制 DNA 基 卡 未 配对 着 毕 粒 关卡 
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细胞 周期 调控 的 机 制 很 复 洒 ,涉及 信号 传导 系统 和 多 个 细胞 关卡 (checkpoint ) 的 调控 。 
细胞 受 生 长 浮子 刺激 后 ,通过 信号 传导 系统 产后 - 系列 效应 分 子 , 引 起 基因 的 表达 ,促进 细 
胞 生长 和 分 裂 。 细 胞 关卡 主要 控制 着 细胞 周期 的 进程 ,两 个 主要 的 细胞 关卡 出 现在 G, sS 
fl G,—M 的 交界 处 。 当 DNA 受到 损伤 后 ,未 修复 的 DNA 难以 通过 G1 一 S 的 关卡 进入 5S 
期 ;同样 , 当 DNA 复制 未 完成 时 ,难以 通过 GoM 的 关卡 进入 M 期 。 细 胞 关卡 的 调控 中 最 
重要 的 参与 者 为 一 系列 激酶 ,能 使 靶 和 蛋白 质 发 咎 磷酸 化 。 这 些 激 酶 导 周 期 重 白 (eyeclin) 结 
合 后 表现 出 本 活性 ,同时 又 受到 - -系列 抑制 物 的 控制 。 细 胞 下 是 在 - :系列 严格 调控 机 制 的 
控制 下 完成 一 个 细胞 周期 ,同时 保证 遗传 信息 传递 的 精确 性 。 当 信号 传导 系统 的 基因 发 生 
突变 时 ,常常 导致 细胞 生长 失控 ,从 而 导致 肿瘤 的 发 生 , 妈 所 请 的 癌 基 因 ; 当 控制 细胞 关卡 的 
区 基 发 生 突变 时 ,不 能 抑制 细胞 的 生长 ,也 可 导 笋 囊 瘤 的 发 生 , 邮 所 背 拙 癌 基 因 。 图 2 —9 Вр 
为 细胞 周期 及 其 调控 示意 图 。 


2.2.2 RADR 

细胞 有 冀 分 烈 (mitosis) 过 程 分 为 四 期 :前 期 {prophase) .中 期 (metaphase) .后 期 (ana- 
phase) .末期 (telophase) 。C ,S,G, 期 统称 为 间 期 (interphase) ,不 分 发 的 细胞 停留 在 该 期 。 
分 借 细 胞 离开 С, 期 后 进 人 人 有些 分 型 的 前 期 ,染色 质 升 始 浓缩 ,形成 姐妹 染色 体 , 核 膜 破裂 。 
进 人 中 期 后 核 膜 和 核 仁 消 失 ,染色体 通 过 附着 于 着 经 粒 (centromere) 的 纺 狂人 经 排列 于 细胞 的 
杰 道 板 。 随 着 着 丝 粒 的 分 离 ,细胞 进入 后 期 ,姐妹 染色 体 分 离 , 分 布 于 细胞 两 极 , 核 膜 开 始 转 
绕 梁 包 质 形成 ,至 细胞 出 现 双 核 时 , 邹 进入 末期 ,细胞 沿 赤道 板 形 成 绕 坏 ,最终 分 裂 成 两 个 子 
代 细 胞 ,各 月 省 有 与 亲 代 细胞 完全 - - 样 的 染色 体 。 


2.2.3 ЮЛЫ 

减 数 分 裂 (meiosis) ФЕ 482223 n ZAE ЖИН 6 ОА А] ЖОЛУ RUBUS РИК 
( L5 ID) ESSA REGERE PRIR Е ОМА 的 复制 ,产生 4 个 子 代 细胞 ,每 个 细 
胞 含 亲 代 细 胞 染色 体 数目 的 -一半 , 称 单 倍 体 (haploid)。 减 数 分 错 与 有 经 分 裂 一 样 ,也 被 分 
成 前 期 .中 期 .后 期 和 末期 4 个 阶段 ,但 染色 体 的 变化 大 不 一 样 。 

间 期 细胞 进入 前 期 1 后 ,经历 较 有 丝 分 模 的 前 期 复杂 得 多 的 过 程 ,发 咎 同 源 染 色 体 的 联 
会 (synapsis) ,配对 的 姐妹 染色 体 之 间 DNA 双 链 断裂 ,遗传 物质 发 生 相 互 交 换 , 再 重新 连接 。 
中 期 工 的 染色 体 分 布 于 赤道 板 ,与 纺锤 丝 相连 。 进 人 后 期 【 ,两 套 染 色 体 各 自 移 负 两 极 , 而 
不 是 靠 纺 狂 丝 牵 拉 向 两 极 ,这 与 有 丝 分 裂 的 后 期 有 本 质 不 同 。 在 末期 1 被 核 膜 包 绕 形成 两 
个 核 ,每 个 核 所 含 染 色 体 数 日 为 母 细 胞 的 一 半 。 末 期 1 的 细胞 分 裂 后 不 久 即 直接 进行 减 数 
ЛЕШИП ,此 期 间 未 发 生 DNA 复制 。 

减 数 分 裂 下 与 有 经 分 裂 过 程 柑 似 ,细胞 又 被 一 分 为 二 ,最 终 形 成 单 信 体 细胞 。 减 数 分 列 
1 和 焉 的 示意 图 见 图 2 -10。 值 得 注意 的 是 , 减 数 分裂 过 程 中 ,来 日 父母 双方 的 染色 体 发 生 
了 两 次 交换 。 一 -次 是 前 期 中 联 会 后 的 交换 ; 男 一 次 是 后 期 1 中, 父 源 和 母 源 的 染色 体 随 机 
组 合 后 , 移 向 两 极 ,使 子 代 细胞 含有 重组 后 父 合 双方 的 遗传 信息 。 这 使 得 生殖 细胞 的 遗传 信 
息 并 非 拷 页 单一 亲 代 ,从 而 保证 了 生物 多 样 性 。 
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图 2 -10 RAJE AITA 


2.3 生物 信息 在 世代 癌 的 传递 


基因 作为 遗传 的 基本 要 素 ,遵循 遗传 规律 代 代 相传 。 基 因 控 制 生物 性 状 的 遗传 是 非常 
复杂 的 。 可 以 是 基因 产物 的 直接 作用 ,也 可 以 是 通过 基因 产物 作用 于 性 状 表 达 的 中 间 环 节 
而 间接 发 探 作用 ,还 可 通过 作用 于 基因 表达 的 调控 环节 来 控制 性 状 的 表达 。 对 于 多 基因 控 
制 的 性 状 ,是 由 于 不 同 基 因 产 物 的 相互 区 加 作用 来 控制 。 


2.3.1 ЖГ 

2.3.1.1 重 德 尔 基本 规律 

在 生殖 细胞 形成 过 程 中 ,等 位 基因 彼此 分 离 , 分 别 进入 不 同 的 生殖 细胞 中 ,这 一 规律 称 
为 分 离 律 ,是 由 奥地利 著名 遗传 学 家 孟 德 尔 于 1865 年 通过 玖 豆 杂 交 实 验 所 发 现 , ЖК ЙЕ 
尔 第 - -定律 。100 EE, ,这 -一 规律 被 用 来 解释 许多 人 类 遗传 病 和 性 状 的 遗传 规律 。 

备 德 尔 在 总 结 一 对 相对 性 状 遗 传 规律 的 基 侧 上 ,进一步 研究 了 两 对 以 上 相对 性 状 的 遗 
E REETH: 两 对 或 丙 对 以 上 的 等 位 基因 位 于 非 同 源 染 色 体 的 不 同位 点 时 ,在 生殖 细 
胞 形成 过 程 中 , 非 等 位 基 钢 狐 立 行动 ,可 分 可 合 , 有 均等 机 会 组 合 到 同一 个 生殖 网 胞 中 。 这 
基 岂 于 在 形成 配子 的 碱 数 分 弄 过 程 中 , 同 源 染 鱼 体 要 柑 互 分 离 , 非 同 源 染 色 体 随机 组 合 进入 
不 同 的 配子 中 。 自 由 组 合 律 又 称 孙 德尔 第 二 定律 。 
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HHIH ДЖЕ АА ӨЙ ЕЕ А GR Н Е (REED - 
染色 体 上 ,这 -现象 称 为 基因 连锁 。!1909 年 美国 遗传 学 家 摩尔 根 及 上 共 学生 在 兰 德 尔 定律 基 
nh pF ,利用 梨 蝇 进行 的 杂交 实验 ,揭示 了 位 于 同 小 染 色 体 上 不 同 坐 位 的 两 对 以 上 等 们 基因 的 
遗传 规律 , 妈 著 名 的 连锁 与 与 换 规律 .其 基本 内 容 是 :生殖 细 抱 形成 过 程 中 ,位 于 同 --- 染 色 
体 上 上 的 基因 是 连锁 在 - -起 的 ,作为 一 个 单位 进行 传递 , 称 为 连锁 律 ,。 在 生殖 细胞 形成 时 ,一 
对 同 滁 染色 壮 上 的 不同 对 等 倍 基 因 之 间 可 以 发 生父 换 , 称 为 冬 换 律 或 丘 换 律 。 

连锁 (inkage) 和 互 换 (cross — over) 是 牛 物 界 的 普遍 现象 ,也 是 造成 生物 多 样 性 的 重要 
闲 因 之 --。 一 般 而 言 , 琴 对 等 位 基 内 相距 越 远 , S l: ЖП 6 К, RALE ( recombina- 
tion rate} 越 高 ;反之 , 相 雁 越 近 , 重 组 率 越 低 。 因 此 ,重组 府中 用 米 反 映 同 -- 染 色 体 上 两 个 基 
基 之 间 的 相对 距离 。 以 磋 因 重组 率 为 1% 时 两 个 基因 章 的 路 尚 记 做 1 JH EE ( сеп тограп, 
cM) 。 据 此 ,可 绘制 出 一 条 染色 体 F 不 同 基 因 或 多 态 标 志 物 的 遗传 图 (genetic map) ,这 古人 
类 基因 组 计划 实施 中 的 重要 步 野 。 目 前 基于 连锁 与 互 换 律 ,已 广泛 用 于 疾病 基因 的 定位 克 
隆 和 遗传 病 产 前 诊断 中 的 连锁 分 析 。 

2.3.1.2 sh fh LEER Zr Efe ilb or 

FÉ EEUU (oi ner ,根据 决定 该 疾病 的 基 册 所 在 的 染色 体 不 同 Ham h КЕ ЖИ 
Л. 

(1) 2 е Е EE autosomal dominant inheritance) MPRA mak AD, 

(2) 常 染 鱼 体 隐 性 遗传 (autosoma] recessive inheritance) , f] £j s ли АН. 

(3) X i£ i m PESE ( X — linked dominant inheritance) ,简称 XD, 

(4) X xk Bn pe FEE CX - linked recessive inheritance ) ,简称 XR. 

(5) Y xk dst fe Y – linked inheritance), 

(6) £& ur {ЖИЙ ( mitochondrial inheritance ) „ 

临床 十 判断 单 基 内 病 的 遗传 方式 常用 系谱 分 析 法 。 系 谱 ( pedigree) 或 称 家 图 是 捐 对 其 
遗传 病 忠 者 家 族 各 成 员 的 发 病情 况 进 行 详细 调查 ,天 以 特定 的 符 纺 和 格式 绘制 成 反映 家 族 
各 成 员 相 互 关 系 和 发 病情 况 的 图 解 。 系 谱 图 的 绘制 方法 常 以 该 家 系 中 首次 确诊 的 患者 又 称 
AUER (proband) 开始, 追溯 其 直系 和 旁 系 各 世代 成 员 及 该 病 患 者 在 家 族 亲 属 中 的 分 布 情 
况 。 根 据 绘 制 的 系谱 图 进行 分 析 ,又 称 系 谱 分 析 ,以 确定 该 家 系 是 否 吕 有 遗传 病 及 其 可 能 的 
Же, | 

系谱 分 析 的 基本 程序 是 : 先 对 某 遗 传 病 患 者 各 家 族 成 员 的 发 病情 况 进 行 详细 调查 ,再 按 
-- 定 方式 将 调查 结果 绘 成 系谱 ,然后 根据 下 德尔 定律 对 各 上 成员 的 表现 型 和 基因 型 进行 分 析 。 
通过 系谱 分 析 可 以 判断 某 种 遗传 病 是 单 基因 病 还 是 多 基因 病 , 以 及 确定 单 基因 病 的 遗传 方 
式 , 探 讨 和 遗传 异 质 性 的 存在 。 另 外 ,系谱 分 析 也 其 遗传 风险 分 析 ,连锁 分 析 和 产 前 诊断 中 必 
不 可 少 的 丁 具 。 

2.3.1.3 F $ EEH 

-PERA A E (TE I ik E, ҢЕЛ ЛЕШ. EJ Зза qk h REIR И 
ЖЕҢ (АЮ) 。 所 引起 的 疾病 称 为 常 染 色 体 显 忻 遗 传 病 。 

常 染色 体 显 性 遗传 有 具有 以 下 特点 [参见 图 2 -11(а)); 

(1) 致 病 基因 位 于 带 染 色 体 土 , 遗 传 与 性 别 无关 , 男 女 发 病 机 会 均等 。 
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(a) 常 染 色 体 显 性 遗传 方式 
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2-11 UBUNTU 


(2) KU Жз? O9 HUGE 8 Kik a r, ЖИИ FB IU. ЖОЕ ЖЕЕ pi Ud ICE 
来 。 双 亲 都 未 患 病 ,子女 一 般 不 发 病 , 除 非 新 发 生 的 基 央 突变 ,这 种 情况 一 般 风 于 那些 突变 
率 高 的 病 种 ,如 多 发 性 神经 纤维 瘤 软骨 发 育 不 全 .成 骨 木 全 .家族 性 多 发 性 结肠 息肉 ,成 人 
Е: Dra. 

(3) 患 者 同胞 中 约 有 1⁄2 28 Hist K E bB Piaya e e| АЯ 1р. 

(4}) 上 患者 子 代 中 约 有 172 为 患者 ,而且 每 次 都 有 1⁄2 ^E T — ARLA AE ДПА xu ЛЕ 
同 为 思 者 ( 杂 合子 ) , 则 子 代 中 ,将 有 374 为 患者 , 仅 1/4 为 正常 。 

(5) 每 代 都 可 出 现 患 者 ,出 现 连 续 传 递 现象 。 

2.3.1.4 常 染色体 隐 性 遗传 

一 种 性 状 或 遗传 病 基因 位 于 常 染色 体 上 ,其 性 夺 是 隐 性 的 , 即 在 杂 合 状态 下 不 能 表现 出 
相应 症状 ,这 种 遗传 方式 就 是 常 染色 体 隐 性 泪 传 (AR，。 所 引起 的 疾病 称 为 常 染色 体 隐 性 遗 
传 病 。 这 种 具有 隐 性 基因 的 杂 合 子 (Aa) 称 为 携带 者 { carrier) 。 

常 染色 体 隐 性 遗传 具有 以 下 特点 [参见 图 2 -11(Ь) 1, 


СТУЛЕ РЕЗ ГАСНА А .携带 者 、 健 康 人 的 概率 分 别 为 
1/4 1/2 ЖП 1/4, 
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2) 思 者 同胞 中 约 有 1⁄4 患 病 , 且 畏 女 患 病 机 会 均等 。 患 者 发 现 型 让 常 的 同胞 ,有 2/3 
的 可 能 性 为 携带 者 ,这 种 携带 者 又 被 称 为 可 能 扒 民 者 。 

(3) 患 者 子女 中 ,一 般 不 发 病 , 不 出 现 连续 传递 规 象 。 儿 为 散发 或 陋 代 遗传 。 

(4) yr ЖАНИ, dc np Ao PUT Е 

2.3.1.5 ХЕВИ 

至 病 基 因 位 于 外 Wee LIBE X Ж e foa ea X ERDRE., y X EA EER aE. 
X xk SG PERSE E ae {Ж F 3E Е 7; 3X OSEE X И e LS dt I 5S E FUR % X 
З, 又 称 为 半 合 子 (hemizygote) ;, 5228 X Ie (nup LB EDS H fe fo E Л, БЕ X ЖИ 
病 基 因 只 能 从 母亲 获得 ,这 称 为 交 丸 遗传 。 

Oed Hr X Xe (bk |: Ae BIET EG Ry X 连锁 隐 性 遗传 (XR) 。 其 特点 如 
ТЇ А 2-11€90 ]. 

(1) frm red d e m Pe EG m H So SEDI Bo Br, 23 CARRERA, 


其 至 极 少见 到 女性 患者: 
(DIETA. BRER, BER D ER f, ЛЗР 1/2 BL ЛИЕ, 
但 有 172 为 携带 者 -。 


(3) 由 于 交 文 遗传 ,患者 兄弟 、 姨 表 兄 第 . 色 父 .外 笋 有 和 患 病 风险 。 

由 于 一 些 XR 遗传 病 患 痢 是 致死 性 的 ,一 般 于 婚 育 前 死 广 ,这 时 很 少见 到 连续 传递 现 
S. 系谱 中 经 常见 到 儿 民 由 女性 携带 者 传递 的 方式 。 劳 外 ,一 些 致死 性 散发 性 X 连锁 隐 性 
遗传 病 中 ,1/3 病例 是 由 共 亲 卵子 拱 成 中 新 发 生 的 基因 突变 引起 。 

2.3.1.6 线粒体 遗传 

线粒体 基因 组 含有 细胞 核 基因 组 之 外 的 遗传 信息 ,有 其 独特 的 遗传 特点 ,表现 如 下 。 

(1)mDNA RA FK ETE. KEJE mDNA 能 独立 复制 . 转 严 和 翻译 。 但 维持 线粒体 结 
TÀ Fat GE B3 ЖОНЛЕ M. SEES DNA 影响 。 

(2) £& br p XE DAL £g ЕТ Hi rud f О 1# ЖЕНЫ ZB P 38 EIL EE BA PAS [n]. ERAKI EA 
UGA HEER, ЧЕЖЕ RNA 的 兼用 性 也 较 强 ,22 个 1RNA 可 识别 48 Е, 

(Зи МА 5 8f zt RE (maternal inheritance) 方 式 。 即 由 母 方 将 其 mDNA 传递 给 所 有 
子女 ,再 由 其 女儿 传 给 下 - - 代 。 这 是 因为 受精 时 ,精子 仅 核 DNA iA ЗЕ ВН, АЛЛ 
EA. 

(4) m DNA ВЯЛ SHEE. mtDNA TA 224r UBER a ИҢ pa] B9 £5 ET т! 
DR MZ mtDNA ЕЛЕ ЖЕТЕ, (rl f AN CBURIL ЛЕРИЯНДИЩ ЕН n] ELI] SERT SEE ЕРЕ Ж mtD- 
NA ZF , Fg Jy) EL lE (Cheteroplasmy) o ЯМААН НТН UR ‚БИЛ, BU 
两 个 子 代 细胞 ,突变 型 和 时 生 型 mtDNA $9 Ho] Az ^E dica, 2) Жн] Ali dr 3E E ҖЫ eS Pl r ET HR 
HE BEES SEA , ,细胞 达到 完全 纯 合 , 称 为 均 质 性 ( homoplasmy)。 异 质 性 和 复制 分 
离 现象 表明 ,即使 核 世 因 组 完全 相同 的 个 体 ,如 一 卵 浆 生 , 也 串 具 有 不 同 的 细胞 质 基 内 型 ,从 
而 表 型 有 所 不 同 。mtDNA 突变 一 般 以 错 义 突变 .RNA 突变 .插入 /缺失 突变 , 撕 由 数 日 突变 
等 4 种 类 型 的 突变 为 常见 , 

(5)mtDNA 具有 阅 值 效应 。 当 突变 的 mtDNA 达到 一 年 比例 时, 才 林 出 现 一 定 的 表 型 。 
表 型 严重 程度 具有 组 织 特 异性 , 即 病 傅 与 该 组 织 器 官 对 氧化 磷酸 化 的 依赖 程度 有 关 , 脑 、 骨 
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BR UL CAE .肝脏 等 ,对 能 量 的 依赖 性 渐次 降低 ,一 般 受 损 程 度 也 渐次 减轻 。 

(6) МА 的 进化 率 极 高 。 一 般 比 核 DNA 高 10 ~20 倍 。 高 进化 率 引 起 个 体 mDNA 
序列 在 群体 中 的 差别 较 大 。 这 一 方面 可 将 mtDNA H TF KARS, 同时 也 说 明 ,线粒体 病 基 
HARER ,但 表 型 的 类 型 不 多。 


2.3.2 多 基因 遗传 

2.3.0.1 多 基因 个 传 概述 

A ED IE ( polygenie inheritance) XER S A R He i multifactorial inheritance) , 是 向 多 
个 基因 的 累加 效应 引起 的 遗传 性 状 ，- 般 与 环境 对 素 共 同 作 用 ,所 导致 的 疾病 称 多 基因 遗传 
病 { 简称 多 基因 病 ) 或 多 内 素 中 传 病 。 因 有 巡 传 因素 在 内 , 故 发 病 芋 家 族 售 出 ,但 不 符合 重 

德尔 遗传 规律 , 即 局 胞 中 的 患 病 率 远 比 1⁄2 п 1/4 fic, НЕ 196 -10%, 

近年 来 ,由 于 分 子 生 物 学 的 飞速 发 展 以 及 基因 检测 技术 的 广泛 应 用 ,在 诊断 .风险 率 佑 
计 和 治疗 单 基因 病 和 染色 体 病 方面 已 取得 巨大 进展 。 然 而 这 些 疾病 只 不 过 是 人 类 遗传 性 疾 
病 中 的 --… 小 部 分 。 大 多 数 先天 柱 畸 形 ,如 无 脑 儿 . 状 柱 裂 和 其 他 神经 管 缺 损 以 及 大 多 数 先天 
性 心脏 病 ,许多 常见 的 成 年 性 疾病 ,如 冶 症 ,高 血压 、 冠 心病 .痛风 .精神 分 列 症 HIE PURI 
рк Елин EBD ЕН ЕВГЕ, БОСС РЕД 多 个 基 内 利 环 
境 因素 共同 作用 的 结果 ,属于 多 因素 遗传 病 。 

2.3.2.2 数量 性 状 

多 因素 遗传 病 为 一 种 复杂 的 疾病 ,为 了 便于 了 解 其 发 病 特性 及 推算 风险 率 ,我 们 先 了 解 
一 下 多 基因 病 的 基础 一 一 数量 性 状 ( quantitative traits ) 。 

数量 性 状 的 遗传 基 础 也 足 基 因 ,不 过 不 是 一 对 基因 ,而 是 昌 对 以 上 的 基因 。 各 对 基因 呈 
共 显 性 ,每 一 对 基因 的 作用 是 微小 的 , 称 微 效 基因 。 但 是 , 若 十 对 基因 作用 累加 ,可 形成 一 个 
明显 的 效应 , 称 为 累积 效应 (additive effeet) 。 近 年 来 也 发 现 一 些 主 基 内 的 作用 所 引起 的 多 
基因 病 。 人 类 的 身高 .体重 .血压 是 由 多 数 基因 的 累加 效应 和 环境 因素 共同 作用 的 结果 ,由 
于 这 些 性 状 可 以 用 数字 来 测量 ,我们 可 以 比较 不 同 数 星 基因 所 引起 的 不 同 表 型 在 群体 中 的 
分 布 情况 . 

以 身高 为 例 ,首先 假 谎 一 个 人 的 身高 是 由 在 - 个 位 点 上 的 岗 个 对 子 太 和 a 所 决定 ,A dE 
因 使 人 个 高 ,a E A SEE A 和 a 在 人 和 群 中 分 布 频数 均等 ,上 日 励 吕 性 与 隐 性 之 分 。 排 列 组 合 
后 群体 中 就 可 能 会 有 3 种 基因 型 ;AA,Aa, 和 аа; ШЕ 3 ARN: А Р SF AAE. B 
设 身 高 由 两 个 位 点 上 的 4 个 对 子 所 决定 ,第 二 个 位 点 上 的 两 个 对 子 分 别 为 B{ 高 ),b{ 矮 )， 
如 果 В b 基因 对 身高 的 影响 与 A 和 a 的 作用 相同 ,这 时 群体 中 会 产生 aabb ,aaBb ,aaBB， 
Aabb, AaBb, AaBB, AAbb, ААВЬ, ААВВ 9 种 可 能 的 基因 型 和 5 种 表 型 。 若 身高 由 3 个 位 点 
上 的 6 个 对 子 来 决定 ,第 三 个 位 点 上 的 基因 是 CRNA e( EE) ,群体 中 则 可 能 出 现 27 种 基 
因 型 ,导致 ? 种 表 型 。 依 此 类 推 , 随 着 位 点 数目 的 增加 ,各 表 型 频数 分 布 图 逐渐 倾向 于 正 态 
分 布 有 曲线 ,在 此 基础 上 ,如 再 加 上 环境 的 影响 ,图 形 会 谈 成 更 平滑 的 止 态 分 布 曲 线 。 这 就 被 
称 为 连续 性 状 (continuons trait)。 事 实 上 ,任何 由 大 量 各 自 独 站 的 基因 联合 作用 所 导 匆 的 可 
变性 状 在 群体 中 都 呈正 态 分 布 。 
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在 多 基 内 遗传 病 中 ,遗传 基础 和 环境 因素 共同 决定 一 -个 个 体 患 病 的 可 能 性 大 小 , 称 之 为 
易 患 性 (Jiability) 。 易 患 性 是 多 基因 遗传 中 的 特定 概念 。 其 中 国 遗 传 基 础 决定 该 个 体 的 患 
病 风 险 称 为 易 感性 (susceptibility } 。 易 患 性 的 灾 异 也 与 上 述 数 量 性 状 一 样 , 曙 让 态 分 布 。 在 
-- 个 群体 中 , 易 患 性 商 低 不 一 ,多 数 人 处 于 中 等 水 平 , 即 接近 平均 值 。 当 - :个 个 体 的 易 患 性 
达到 或 超过 - 定 的 水 平 , 就 可 能 患 病 ,这 个 正 态 分 布 曲线 上 发 病 的 最 低 陋 度 称 做 阔 值 
(threshold). 这样 ,连续 分 布 的 易 患 性 变异 就 被 国 值 区 分 出 其 个 部 分 , 即 健康 者 和 患 兰 ,使 
连续 变异 的 数量 性 状 在 阀 值 部 位 发 生 了 质 的 变化 。 在 一 定 条 件 卜 , 阔 什 代表 患 病 所 需 的 最 
少 的 有 关 基 因 的 数 其 。 

-个 个 体 的 易 患 性 高 低 难 以 直接 检测 ,但 是 ,一 -个 群 性 的 易 忠 性 平均 值 可 通过 该 群体 的 

发 病 率 进行 估计: 即时 基 病 发 病 率 高 ,说 明 群 体 中 引起 该 病 的 易 患 性 因素 多 ,其 易 患 性 平均 
(B p ES ADR ESL ST. A, АЕ БИИ ЖП ЖЗ] {Н ЖЕН Мел, S BHF PD И ЖИН ш. 
ВЕЖ RIK. P3 AT UA АУЕ r DI rH Ез BR k EAE: HERE HB МН SEHE E 
离 。 该 讶 离 可 用 正 态 分 布 的 标准 差 作 单位 例如 , 当 一 种 病 的 群体 发 病 率 为 2.3% 时 ,以 阅 
值 为 零 作 估计 , 身 惠 性 平均 值 应 该 位 玫 与 圈 值 相 路 2 个 标准 差 的 位 置 ;如 果 一 个 群体 中 荣 病 
发 病 率 是 0. 13% , 国 值 与 平均 值 之 间距 离 是 3 个 标准 差 。 

易 患 性 的 高 低 受 遗传 和 环境 因素 双重 影响 ,其 中 ,遗传 因素 所 产生 的 影响 程度 称 为 遗传 
Е (heritability) ARRE, 通常 用 百分率 (名 ) 来 表示 。 基 病 的 遗传 度 高 ,表明 遗传 内 素 在 该 
病 易 患 性 中 所 起 作用 大 ;遗传 度 低 , 则 说 明 环 境 因 案 在 起 主要 作用 。 多数 遗传 病 的 遗传 这 在 
60% ~80% 。 遗 传 率 的 计算 是 根据 一 般 群 体 和 患者 亲属 易 患 性 分 布 的 对 比 而 求 得 。- - 般 通 
过 查 Falconer 表 得 到 相关 数据 再 计算 。 因 计算 过 程 昨 珊 Ak IEEE. 

2.2.24 多 基因 遗传 的 特点 

(1) 多 基因 病 有 家 族 聚 集 倾向 ,所 以 患者 亲属 的 发 病 率 高 于 群体 发 病 率 ,但 在 一 个 家 庭 
中 并 没有 明显 的 孟 德 尔 遗 传 方式 。 

(21 才 基因 中 传 病 的 发 病 风险 与 遗传 度 密 切 相 关 。 杠 据 厅 体 发 病 率 GU BER EGET 
级 亲属 发 病 率 之 间 的 关系 ,可 以 估计 过 基 因 病 的 发 病 风 险 率 。 当 群体 发 病 率 为 0. 196 -1% 
WE, ig fe IE RISE E 70% - 8096 , 则 审 者 一 级 亲属 的 发 病 率 接近 于 群体 发 病 率 的 平方 根 。 当 
址 传 度 低 于 该 值 ,患者 一 级 亲属 的 发 病 率 低 于 群体 发 病 率 的 平方 根 。 相 反 ,遗传 度 高 于 此 
值 ,患者 -级 亲属 的 发 病 率 上 入 于 群体 发 病 率 的 平方 根 。 例 如 ,后 裂 在 中 国人 群体 中 的 发 病 
RA 0.17% ,其 遗传 度 为 76% ,患者 一 级 亲属 的 发 病 率 为 4% , 近 于 1. 7/1000 的 平方 根 
(24.196), WE t£ REO 10096 ,患者 一 级 亲属 的 发 病 率 接近 于 9% ;如 时 遗传 度 为 50% ， 
则 患者 一 级 亲属 的 发 病 率 将 低 于 2 品 。 男 一 方面 ,在 遗传 度 相 同 的 情况 下 ,群体 发 病 率 不 
同 , 发病 风险 率 也 不 同 。 例 姐 , 在 遗传 度 为 和 驼 的 条 件 下 ,群体 发 病 率 为 0.1 驼 时 , 忠 者 一 级 
亲属 的 发 病 率 为 1% , 即 较 群 体 发 病 率 高 10 倍 ; 群 体 发 病 率 为 1 名 时 ,患者 一 级 亲属 的 发 病 
EASA , 即 较 群 体 发 病 率 高 5 倍 :群体 发 病 率 为 10 吕 时 ,患者 一 级 亲属 的 发 病 率 为 20% , 即 
较 群 体 发 病 率 高 2 依 。 

(D 某 儿 关系 的 远近 与 发 病 率 也 有 关系 。 感 者 一 级 亲属 有 相同 的 发 病 率 , 这 与 AR 明显 
Жа, слаі, А, 59 Ld LEE CO ,外 黎 ( 女 ) ] 患 病 的 人 危险 性 较 一 级 亲属 患 病 的 外 
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We ES] i F PR, IB Жл pu ЖЕ ЖУЗИП fa a PE F PR49324. БИШ, ЕЖЕ Ж —Э 38 REA 
4% ,二 级 亲属 为 0.7% KREAN 0.396 ,. ARER EA Э-Э: B IK Pe ТЕУ ЙЫ 
Ж НЕШЕ, t- FCR FEE ЕЕ ЕЕ — ВИ Зе ареал R ЖБ НЕ, Ж а В. 
性 遗传 病 中 只 有 同胞 患 病 ,无 其 他 亲属 患 病 。 

(4) 家 庭 中 若 有 一 个 以 上 上 的 成 员 患 病 ,再 发 风险 率 增 商 。 例 如 在 一 个 家 庭 中 只 有 双亲 
之 一 患 神经 管 缺陷 , 绸 发 风险 为 4.5 妈 ;和 若 双 到 之 一 青 加 -个 子女 患 病 ,再 发 风险 增加 到 
12% ; 若 双 亲 之 一 再 拉 两 个 子女 患 病 , 再 发 风险 增加 到 2096 。 而 单 基因 疾病 不 管 有 一 个 .两 
xx B Ae Toi RUE ,再 发 风险 对 下 -个 孩子 总 是 一 成 不 变 的 。 

(5 病情 越 严重 ,亲属 的 再 发 风险 率 越 高 。 患 病 严 重 的 个 体 表 明 其 家 庭 县 有 更 多 的 易 
感 基因 ,所 以 青 发 风险 就 越 大 。 比 如 单纯 性 展 裂 患 儿 , 其 同胞 再 发 风险 为 4.0; 苦 患者 患 双 
MERASA, HARER RERA 5.696 3X — Ab FJ GE RE 4538 Ta] РАА 
传 病 中 ,不 论 病情 的 轻重 如 何 ,一 般 都 不 影响 其 再 发 风险 。 

(6) 当 某 个 疾病 在 -种 性 别 的 发 病 率 高 于 在 另 -种 性 别 的 发 病 率 时 ,发 炳 率 低 的 性 别 其 
Je Cie XU T E ELS. ,发病 率 高 的 性 别 , 患 者 后 代 青 发 风险 则 较 低 。 这 是 因为 发 病 率 低 的 
性 别 ,发 病 阔 值 高 ，. 口 发 病 , 则 意味 着 其 带 有 较 多 的 致 病 基因。 例如 ,先天 性 网 门 狭窄 的 男性 
发 病 率 高 于 女性 5 倍 ;女性 患者 的 儿子 中 ,发 病 率 为 20% ;男性 患者 的 儿子 中 ,发 病 率 为 5% 。 

(7) 双 亲近 亲 婚 配 , 子 女 青 发 风险 率 高 。 这 是 因为 近亲 婚配 的 双方 带 有 更 多 相同 的 从 
共同 祖先 遗传 来 的 致 病 基因 。 


2.4 ЖАЖА ЭИ 


2.4.1 ЖЗ УЯУ ЖГ” 

罕 变 (mutation) 是 指 遗 传 物 质 ( М s pe ЖЕ РА) DERE {ЕГА Ж НО ЦЫ SE] DNA 复制 .细胞 
分 裂 过 程 中 发 生 的 可 遗传 的 变异 。 这 种 变异 通常 改变 了 基因 的 DNA 序列 或 染色 体 的 结构 
或 数 晶 。 染 色 体 结构 或 数目 的 突变 又 称 染 色 体 畸变 ,导致 染色 体 病 。 狭 义 的 基因 突变 是 指 
个 别 基 央 的 结构 所 发 生 的 变异 。 可 表现 为 基因 中 某 - 位 点 奏 基 的 改变 , 称 点 突变 (peint mu- 
tation) 或 基因 坟 片 段 序列 的 改 恋 (gross mutation) 。 

基 认 突变 分 类 方法 很 多 ,根据 突变 的 区 域 大 小 可 分 为 点 突变 和 大 片段 突变 两 大 类 。 基 
中 点 突变 又 分 为 以 下 儿 种 。 

2.4.1.1 4#Җ X XE ( missense mutation) 

А рар Т Е THATA, TARA TERK AOR ARARE 
自 质 。 这 种 突变 通常 发 生 在 密码 子 的 第 一 和 第 二 个 碱 基 。 密 码 子 第 三 个 碱 基 的 改变 很 少 引 
起 所 编码 令 基 酸 的 不 同 。 这 种 不 引起 编码 氨基 酸 改 变 的 基因 突 蛮 又 称 为 同 义 罕 变 (same - 
sense mutation) sË DL ER SE AIF ( silent mutation ) ,, 

2.4.1.2 AA X € (nonsense mutation) 

Ba Е ЕЦ TA n Ee LE ЗЕР, Sh 2k НЕ Н ИН) PE BU AR. XX ЖРЗЕЛЗЕ БТЗ 
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b M mA Ж# gGBPpIELEG E 
学 的 mRNA 较 不 稳定 ,合成 的 蛋白 质 常 因 缺 少 C -末端 而 无 功能 ,引起 较 严 重 的 症状 。 
2.4.1.3 AER E {frameshift mutation) 
由 于 一 :个 或 几 个 碱 基 (不 是 3 个 或 3 的 倍数 个 ) AR, Sp gk Е ER 
( ORT) 的 改变 ,使 得 所 编码 的 借 白 质 在 突变 点 以 后 的 序列 与 里 生 型 完全 木 同 ,甚至 提早 出 
现 终 止 密码 子 。 这 类 重 户 质 通常 兴 去 正常 生物 学 功能 。 
2.4.1.4 EÈ E (elongation mutation ) 
Hi А НО RE LU: DOE QC F SERT ERR CREE ААЦ Р, fl CR fr 
威 疆 续 下 上 ,直到 下 - q Fg R. ,又 称 为 终止 密码 突变 。 如 中 国人 群 常 风 的 一 种 点 
ҖЕ ЖЕМИ үү Ян $4 rl —— Hb CS (Constant Spring) a 
2.4.1.5 拼接 突变 (splicing mutation) 
|А mRNA 剪 切 加 工时 ,内 含 子 两 端 拼接 识别 序列 (GT - AG) 或 外 显 子 拼接 增强 子 
(ES 的 突变 ,导致 本 党 的 外 普 子 拼接 错误 , 常 引起 大 片段 的 馆 失 或 插入 ,而 改变 了 所 编码 
志 白 质 的 性 质 。 另 一 种 常见 的 拼接 突变 发 生 在 内 含 子 中 国 座 列 的 点 突变 ,产生 -- 个 可 被 识 
别 的 拼接 信号 ,又 称 隐 含 拼接 突变 (cryptic splicing mutation) 。 
2.4.1.6 d LXX 
央 mRNA 转录 启动 子 .增强 子 VRT (silencer) ,位 点 控制 区 (LCR) Ze 38 8 fS 
等 的 突变 ,导致 mRNA 不 能 正常 转录 或 加 工 , 仅 出 现 少 量 或 完全 缺乏 具 生物 学 功能 的 mRNA, 
图 2 -12 为 常见 点 突变 方式 的 示意 图 。 


正常 序列 
ATG| AAC|CGT| CGC|CCG|TCA | CCG | TTA | TIG | CGT 
Met-- Asp-- Arg-- Árg--Pro--Ser- -Pro--Leu--Ieu--Arg 


TREE | AC 
АТС | AAC| CGT| CGCÍ CCG [ТСС | CCG | TTA | TTG | CGT | 
Met-- Asp- - Arg- - Arg -- Pro--Ser- - Pro- -Leu--Leu-- Arg 


Т d iu Т-А 
ATG|AAC[CGT| ССС | ССС | АСА | CCG| TTA | TTG | CCT| 
Ме-- Asp-- Arg -- Arg- -Pro- -Fhr--Pro--Leu--Leu-- Ага 


A X RE {СА 
ATG] AMCI CGT] CGC| CCC | TAA | CCG | TTA | TTC | CCT | 
Met-- Авр- - Árg- - Arg- -Pro--X 


称 码 突变 | InsG 
ATG|AAC|CGT|CGC|CCC | TCG | ACC | GET | ATT| GCG| T 
Met-Asp-- Arg-- Árgz--Pro--Ser--Pro--Thr-- Val--1o-- Ala-- 


2-12 常见 点 突变 方式 示意 图 


#2ё#& аА ee 


天 片段 基因 帘 蛮 包括 缺失 (deletion) „8 A (insertion) 0 CHE ( rearrangement) 等 , 导 敏 基 
因 结 构 的 显 鞭 变化 ,所 编 砸 的 蛋白 质 也 因此 失去 正常 生物 学 功能 。 引 起 藉 片 段 基因 突 灾 的 
原因 有 :拼接 突变 , 转 座 子 捅 入 {transposonal insertion) 、 梁 色 体 错 配 与 不 等 交换 ,以 及 国 染 色 
体 易 位 导致 的 融合 基因 (如 ВСЕ -ABL 基因 ) 等 。 转 座 寺 (transposon) 实 际 上 是 一 种 可 移动 
的 基因 ,可 从 染色 体 的 一 个 位 点 移 到 田 一 个 位 点 ,或 从 一 个 复制 子 移 天 另 “个 复制 子 ; 已 报 
Н 30 多 种 基因 因 转 座 子 的 插 人 突变 而 导致 相应 的 疾病 。 

近年 来 一 类 被 称 做 动态 突变 (dynamie mutation) 的 现象 引起 临床 遗传 学 家 的 关注 。 有 
Frog АВЕ ds e Y P) (short tandem repeat, STR) ,尤其 是 荆 核 音 酸 重复 ,位 于 基因 的 编码 或 非 
编码 序列 中 ,它们 的 重复 次 数 存 一 代 代 传递 过 程 中 会 发 生 明 显 变化 ,从 而 导致 某 些 复 传 病 的 
发 生 ，。 如 脆性 外 综合 征 . 强 症 性 肌 营 养 不 良 Huntington EC 5. 

最 近 报 道 一 类 新 的 遗传 病 产 生 方 式 , 即 反 六 RNA 的 转录 可 导致 基因 沉默 (gene silen- 
cing) 和 基因 调节 区 CpG y 3 fF ( methylation) ,内 此 引起 相关 的 疾病 ,如 ea- 地中海 贫 
fie 。 

外 避 传 学 (epigenetics} 荐 近年 来 遗传 学 研究 的 热点 之 -“。 其 性 状 是 指 体 细 胞 性 或 生殖 
细胞 性 遗传 物质 的 改变 所 导致 的 基因 功能 的 改变 恋 法 由 DNA 一 级 结构 的 改变 所 能 解释 的 
遗传 现象 。 外 遗传 学 性 状 是 可 遗传 的 。 这 些 现 象 包括 基因 组 印记 (genomic imprinting) . 单 
FAAPE UPD) DNA 甲 基 化 ,基因 表达 的 调节 X 选择 性 拓 活 、 转 座 现象 等 。 


2.4.2 ”基因 突变 的 效应 ba 

根据 基因 突变 对 基因 功能 的 影响 ,大 致 分 为 功能 丧失 (loss — of — function) ,功能 增加 
( gain — of — function) 和 功能 不 变 3 Ж. ZEE ЗОН АИЛЕ ЗЕ AE ( null mutation) 2| 1, — A 7j 
AER G. INE mE J ҮЕЗЕЛЕ, МЕЕ Н BE. SCINGIGEBWGCRAGRIRCURRE 
度 天 致 分 为 以 下 几 类 。 

2.4.2.1 AARE 

突变 给 个 体 的 生育 或 生存 带 米 一 定好 处 。 

2.4.2.2 中 性 突变 

突变 对 个 体 不 产生 可 察觉 的 效应 。 

2.4.2.3 Ж $ Æ Š (polymorphism) 

ЖАРА Жа Жш Ж, AD ds b: de Е PE BJ RRA., ЭЕ КЕ DNA, mR- 
NA 、 蛋 白质 . 淮 色 体 等 不 同 水 平 , 分 别称 为 DNA Ed КЕЕ РА ЕЦЕ 
色 休 多 态 性 等 . 可 以 此 作为 基因 定 仓 .个 人 身份 鉴定 .药物 反应 性 ,疾病 易 感 性 .器 官 移植 等 
的 重要 依据 。 因 此 ,近年 来 有 关 DNA 多 态 性 的 检测 与 致 病 基 因 容 变 位 点 的 检测 一 样 , 受 到 
临床 的 广泛 重视 ， 

2.4.2.4 dr SE xh 

突变 通常 导致 量 白 质 无 功能 ,又 称 零 突 变 (null mutation) ;. EA] 2003 年 10 月 ,已 明 
确 超过 1 500 个 基因 的 突变 可 导致 疾病 效应 。 

2.4.25 ЖЯ 

罕 变 导致 死胎 .流产 或 死 产 。 


M 
T 


A JP Ea ЖЕ = s yd 


2.4.3 ШЕНЕУ" 

[ш ЗЕ ЖЕ ЖИ Fa Ee Е ДЕ ЖЕ р 28 ДЕ Тү CB ГЕК ЖО BLA M S. ЖИГ 
变 基 因 ( mutant ) 与 野生 型 基因 ( wild - type) 位 于 染色 体 的 同一 位 点 ,可 视 做 等 位 基 央 
(allele) 。 组 成 该 个 体 的 基因 型 (genntype) ,其 所 产生 的 突变 效应 , 称 为 表现 型 (phenotype)， 
n USD SHE (trait) 或 疾病 特征 。 罕 变 基 因 与 野生 型 基因 同时 存在 于 杂 含 体 (beterozy- 
gote) 中 ,突变 基因 的 性 状 能 表现 出 来 , 则 称 此 为 显 性 遗传 ( dominarce)。 罕 变 基 因 的 性 状 只 
有 在 纯 合体 (homozygote) PFRN, pA MATERE recessive) 。 

基因 突变 可 发 咎 于 个 体 发 育 的 作 何 阶段 和 体 细 胞 (或 生 区 细胞 } 的 任何 分 期 ,因此 丸 区 
分 为 体 细 胞 突变 (somatie mutation ) 和 生殖 细胞 突变 ( germline mutation), 4 3 E [V fE 
其 子 代 细 胸中 传递 ,不 遗传 给 后 代 。 一 般 认为 , 密 数 肿瘤 的 发 生 属 体 细胞 突变 引 赵 。 只 有 生 
殖 细 胞 的 基因 突变 才能 遗传 给 下 -一 代 , 称 为 遗传 病 (inherited disease) 。 司 细胞 或 生殖 细胞 
基因 突变 引起 的 疾病 统称 为 遗传 性 疾病 ( genetic disease) . 

遗传 性 疾病 大致 分 为 以 下 几 类 : 单 基因 病 .多 基 央 病 、 染 色 体 病 、 体 细胞 遗传 病 ,线粒体 
遗传 病 等 。 截 至 2003 年 5 月 24 日 ,已 在 在 线 人 类 和 孟 德 尔 遗 传 (OMIM http://www. nchi. 
nih. gov/omim) 中 收录 的 条 目 共 14 461 条 ,其 中 已 明确 的 基因 或 表 型 位 点 为 10 731 种 ( 常 染 
色 体 占 10 104 种 ,X 连锁 占 549 Rb, Y 连锁 占 41 种 ,线粒体 基因 组 占 37 种 )。 已 知 的 遗传 病 
种 类 为 2 233 种 ,其 中 已 确定 的 疾病 基因 为 1510 种 。 随 着 人 类 基因 组 计划 的 完成 和 疾病 基 
因 上 克隆 技术 的 发 展 ,以 上 这 些 数 日 将 会 不 断 增 加 。 有 关 基 央 的 定位 除 OMIM 中 可 查找 外 ,还 
可 通过 其 他 网 站 查找 ,如 NCBI 数据 库 中 的 GeneMap99 (http://www. nebi. nih. gov/gene- 
map) , MORBID ре, А23 ZEE EE ( Human Gene Mutation Database , HGMD ) 则 收 
录 了 常见 基因 突变 类 型 (http:/Awww. hgmd. org) 。 如 果 已 诊断 为 某 种 遗传 病 , 想 要 进一步 了 
解 是 否 可 进行 基因 诊断 ,可 查看 http www. genetests. org; 
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第 3 章 人 类 基因 组 与 基因 组 生物 信息 学 


基因 组 (genome) 是 用 来 描述 组 成 - -种 生物 每 个 细胞 内 DNA 的 全 部 
序列 。 不 同 生物 具有 其 独特 的 基因 组 。 大 类 基 内 组 是 日 前 已 知 基 因 组 
中 最 大, 最 复杂 的 基因 组 ， 对 生物 信息 学 工作 者 的 基本 要 求 是 能 掌握 人 
类 基因 组 的 分 析 方 法 ,这 首先 要 求 对 人 类 基因 组 的 组 成 特点 有 清晰 的 认 
识 , 也 是 基因 组 生物 信息 学 (genome hiointomaatics) 的 基本 内 容 。 基 因 组 
学 (genomics) 是 指 研 究 基 因 组 的 科学 ,其 日 的 是 阐明 基因 组 的 组 成 ， 基 
因 的 功能 与 相互 作用 ,以 及 基因 与 疾病 的 关系 等 。 随 着 人 类 基因 组 计 
划 的 完成 ,基因 组 学 发 展 迅 猛 ,目前 已 形成 以 下 几 个 主要 的 分 支 " . 

(1) 解 训 基 因 组 学 (anatomic genomics) 主要 研究 基因 组 的 解剖 
结构 ,是 人 类 基因 组 计划 (HGP) 的 基本 内 容 ,包括 序列 图 .全 长 cDNA 
及 基因 组 多 样 性 (SNP A) F. 

(2) 结 构 基 因 组 学 (structural genomics) ”进入 后 基因 组 时 代 ( post- 
genomic era) ,结构 基因 组 学 主要 研究 核酸 或 重 白质 的 结构 、 定 位、 功能 
及 其 相互 作用 ;与 蛋白 组 学 (proteomics) Р] ЖЫН Жы Ж {М АЖ 
起 白 组 计划 作 一 般 介绍 ,其 他 有 基线 构 基 央 丝 党 内 容 详 见 第 6 章 。 

(3} 功 能 基因 组 学 (functional genomics) 主要 赋 究 基因 的 表达 、 
调控 .功能 及 基因 间 的 相互 作用 。 第 7 章 " 微 阵 放 生物 信息 学 "是 功 能 
基因 组 学 的 重 划 内容。 

(4) 比 较 基因 组 学 (comparative genomics) ”研究 不 同 模式 生物 
( model organism ) 基因 组 与 人 类 基因 组 的 藉 系 ,以 更 好 认识 人 类 生理 、 
病理 过 程 和 行为 方式 等 , 见 图 3 -1 其 中 太 和 包括 对 不 同 基因 组 的 比较 
研究 ,认识 基因 或 蛋白 的 进化 规律 ,以 便 了 解 蛋 白 家 族 的 形成 和 相关 功 
能 研究 。 这 也 是 进化 遗传 学 的 主要 内 容 , 详 见 第 & тї, 

(5) 28 kE E| Н ЖЕ (pharmacogenomies) 人 赋 究 药物 对 全 基因 组 表 
达 的 影响 以 达到 药物 饰 选 的 日 的 。 常 涉及 药物 遗传 学 ( pharmacognet- 
ios) 的 肉 容 , 即 有 关 药 物 个 体 反应 性 或 上 的 物 遗 传 性 状 、 药 物 代谢 的 遗传 
控制 等 。 药 物 基因 组 学 还 涉 友 研究 药物 分 子 设计 种 分子 报 向 的 化 学 基 
因 组 学 (chemical genomics) 的 内 容 , 将 在 本 书 第 9 章 作 相关 介绍 。 
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黑猩猩 基因 组 


小鹿 基因 组 KR AE рН 


太刀 基因 组 线虫 基因 组 
酵母 基因 组 ARE d i D £F 
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83-1 比较 基因 组 学 的 研究 对 象 及 相互 关系 


(06) 医学 基因 组 学 {medical genomics) PRAA H E (genomie medicine) , 旦 研究 人 
类 及 其 相关 的 基因 组 在 医学 中 的 应 用 ,主要 探讨 基因 与 疾病 的 关系 .基因 型 与 表现 型 的 关 
# .遗传 因素 与 环境 因素 的 相互 作用 ,以 及 基因 组 资源 在 医学 中 的 应 用 等 。 包 括 通常 所 说 的 
疾病 基因 组 学 病原体 基 内 组 学 .应 用 基因 组 学 等 。 基 内 组 医学 与 其 他 临床 学 科 一 样 , 有 自 
己 狸 特 的 研究 "器官 ”, 即 基因 组 ,因而 已 成 为 临床 医学 的 一 个 新 的 分 文学 科 。 

近年 来 ,基因 组 学 与 生物 信息 学 的 分 支 发 展 进 速 , 这 两 人 学 科 各 分 支 间 存在 着 相互 联 
系 ,参见 图 3 -2。 本章 将 重点 叙述 结 格 基 因 组 学 .比较 基因 组 学 和 医学 基因 组 学 的 相关 内 
容 。 涉 及 生物 信息 学 的 层面 , 财 重 点 介绍 三 大 公共 人 类 基因 组 数据 库 的 应 用 。 这 二 大 公共 


www. genome. пезс. edu) ; Р) Ensembl (http://www. ensembl. org) 。 
解剖 基因 组 学 4—0 基因 组 生物 信息 学 


比较 基因 组 学 M 序列 生物 信息 学 
结构 基因 组 学 结构 生物 信息 学 
功能 基因 组 学 微 阵列 生物 信息 学 


药物 基因 组 学 ”4 一 一 > ”统计 生物 信息 学 


` 


化 学 基因 组 学 4—0 ДЕА 


医学 基因 组 学 ——— ”临床 生物 信息 学 


图 3-2 基因 组 学 与 生物 信息 学 分 支 学 科 的 相互 联系 
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3.1 人 类 基因 组 计划 :基因 组 的 解剖 结构 


3,1.1 人 类 基因 组 计划 的 实施 过 程 人 ”1 

为 了 更 好 地 认识 人 类 基因 组 ,有 必要 了 解 人 类 基因 组 计划 (human genome. project, 
HCP) 的 实施 过 程 。HGP 的 提出 可 追 讲 到 20 批 纪 80 年 代 中 期 。1985 年 当 美 国 加 州 大 学 
Santa Cruz 分 校 (UCSC) 的 Robert Sinsheimer 提出 应 该 讨论 对 人 类 基因 组 测序 的 可 能 性 时 ， 
许多 人 认为 这 种 观点 近乎 疯狂 或 者 不 成 熟 。 到 了 1986 1, 3 PEU BB (DOE) B Charles 
DeLisi 决定 对 基 央 组 定位 和 测序 提供 资助 ,同时 诺 山 尔 奖 得 主 ,. 普 名 分 子 肿 痛 学 察 Renato 
Dulbecco 博士 在 《科学 》 茶 志 撰 文 论 述 其 可 行 性 和 必要 性 。1988 年 ,由 美国 科学 院 下 属 的 研 
突 院 特别 小 组 向 美国 国会 建议 开始 起 动 HGP, 计 划 用 15 年 时 间 ,每 年 投 人 钓 2 亿美 元 ,共计 
投入 30 亿美 元 测定 人 类 基因 组 约 30 忆 对 碱 基 序 列 , 其 耗资 及 规模 与 曼哈顿 原子 弹 计划 及 
阿波 罗 登 月 计划 相当 .1988 ER, A -I REIRE DNA WAMA R ELE Watson 博士 
领导 的 -个 美国 国家 卫生 研究 院 (NIH) 和 DOE 联合 小 组 对 HGP 的 实施 起 了 有 为 的 推动 作 
用 。1990 年 美国 国会 通过 了 HGP 的 预算 案 , 并 于 同年 10 H 1 日 正式 启动 。90 年 代 初 期 
HGP 的 其 他 几 位 关键 人 物 是 NIH 国家 人 类 基因 组 研究 所 (NHGRT) 负责 人 Francis Collins , 
Wellcome Trust 的 Michael Morgan 和 DOE 的 Aristides Patrinos 。 随 着 技术 发 展 的 需要 和 更 窗 
的 同 际 组 织 与 科学 察 的 参与 ,-- 个 行 之 有 效 、 分 工人 台 理 的 国际 人 类 基因 组 计划 协作 组 (CHCP 
consortium) 成 为 HGP 实施 的 核心 领导 。 中 国人 类 基 内 组 研究 中 心 成 立 于 1998 年 8 月 ,于 
2000 年 4 月 顺利 完成 3 号 染色 体 短 臂 上 30Mb 区 域 的 工作 草图 ,2001 年 9 月 完成 序列 图 , 即 
所 谓 “1 扣 项 目 ”, 成 为 继 美 .英法 .日 . 德 后 圾 人 到 这 一 国际 协作 组 20 个 测 席 中 心 的 一 员 。 

HGP 的 实施 大 致 经 历 了 壮 传 作 图 一 物理 作 图 一 定位 测序 一 工作 草图 一 序列 食 等 关键 
阶段 。 对 各 阶段 进行 了 严密 的 分 工 和 目标 设 定 , 最 终于 2003 年 4 月 ,正好 是 DNA 双 螺 旋 结 
构 发 现 50 周年 之 际 ,宣告 HGP 的 提前 完成 (工作 草图 已 于 2000 ^£ 6 H 26 НАЗЕ) 。 
这 . -项 目的 实施 过 程 堪 称 所 有 研究 项 目的 典范 。 表 3 -1 2; HGP 的 项 日 计划 和 完成 时 间 
AU, 43-239 HGP КЕЯ", 
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3-1. 人 类 基因 组 计划 的 项 目 计 划 和 完成 时 间 表 


研究 项 月 研究 日 标 完成 指标 完成 时 间 
xt fe TEES 2 -5еМ 分 辩 图 5600 ~ 1 500 分 子 1 eM 分辨 图 (3 000 分 子 标记 】) 1994 + 9 А 
标 沁 ) 
物理 作 图 3 万 个 序列 标签 位 (STS) 5.2 万 个 STS 1998 年 10 Л 
DNA ЗЕЕ 测定 95% 的 基因 序 刘 ,准确 性 sm 98% 以 上 的 基因 序 询 测 2003 年 4 月 
ik 99.99% Н, ТЕК 99. 09% 
测序 十 度 和 成 本 年 测序 量 为 500 Mb ,每 个 碱 基 年 测序 是 > 1 400 Mb, 每 个 碱 2002 1:01 А 
成 本 < $0.25 基 成 本 < $O. 09 
基因 鉴定 AE cDNA 1.5 PP DNA 
模式 生物 жй А Б ҤНҤ и. HARR EE 除 完 成 所 计划 的 4 种 模式 生物 2003 年 4 月 
ШЖ ДЕ МЕН FP] NE Е 基因 组 测序 外 ,还 完成 小刀. 大 
ЮЖ EE ER HL ЕЛЕ 
功能 分 析 建立 基因 组 规模 的 功能 分 析 技 术 © ДЇ ТЩ PE 2 HA r Ж 19945 
DNA Bx 1996 年 
cDNA 文库 1996 年 
Fo Ca MERE ЖЕҢ ЖИ: 1999 年 
大 规模 酵母 双亲 交 完 位 2002 年 
表 3 了 -> 人 类 基因 组 计划 大 事 年 表 
年 du 主要 事件 
1984 年 首次 公开 讨论 大 类 基因 组 测序 项 目 
1986 4j: 首 个 依靠 定位 克隆 的 基因 一 М) 基 朵 被 发 现 
DNA Г zm pe (2 p 
1987 年 ЛТ EImECRFLP) 
1988 年 美国 国立 研究 院 提交 "人 类 基 央 组 定位 利 测序 "项 日 计划 书 
人 类 基因 组 组 织 ( HUGO) FE sr 
HERE ACT Se (n fk ( YAC) 文库 建立 
1990 4j 人 类 基因 组 计划 正式 启动 
МН - DOE 联合 小 组 设立 伦理 ,法律 和 社会 问题 (ELS1) 研究 项 日 
1991 第 美国 基因 组 研究 中 心 成 并 
1992 年 建立 第 二 代 估 类 谢 传 图 (SIS} 
NIH — DOE 联合 小 组 提出 基因 织 数 据 鞭 享 指南 
1993 年 在 4 科学 》 杂 志 发 表 新 的 HGP 五 年 计划 (1993 ~ 1997 年 
英国 Sanger 测序 中 心 成 立 { 后 改名 为 Wellcome Trust Sanger 中 心 》 
1994 年 完成 遗传 作 图 


#з# AXEBHSEESAAGAS rr 
A 
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EY" 主要 事件 
1995 年 完成 物理 作 图 
通过 基 关 非 歧视 法 案 


1996 á: 首 张 人 类 遗传 图 问世 
大 类 基 内 组 测序 初步 研究 开始 
完成 面包 酵母 基因 组 测序 
元 成 小 图 遗传 作 网 
公布 基因 组 数据 快速 公开 的 百 莫大 原则 


1997 4j: DOE 成 立 联合 基因 组 研究 所 (JGJ) 
TAREA AAH NHRD 成 立 
TEHAT AEH LIE 
i p E] р ZH UI FE rH r: ( Genoscope ) 成立 


1998 年 绘制 3 B ToRTEDE AIRE 
TE EFF Унды EGG HGP 二 年 计划 {1998 ~ 2003 4E) 
日 本 RIKEN 基 央 组 科学 中 心 成 立 
SE HS 2X M ЖЕКЕН MI T 
启动 单 核 音 柄 多 态 位 点 (SNP) 作 图 计划 
中 国人 类 基因 组 中 心 域 立 
1999 年 大 规模 基因 组 测序 开始 
зе Ра ЛЕНЬ АЕ Я 21 e u B8 BO BJ ЛЕ 


2000 年 党 成 人 类 基因 组 工作 草图 (6 月 ) 
完成 采 蝇 基 内 组 测序 


2001 Е SR ЛЕА 

完成 10 万 个 人 类 余 长 cDNA 的 测序 
2002 年 完成 和 发 表 小 评 基因 组 初稿 

完成 和 发 表 水 稻 基 内 组 初稿 

SW K Fe AE DR TUERI 
2003 年 宣告 大 类 基因 组 计划 完成 {4 HO 


值得 一 提 和 的 是 , HGP 的 提前 完成 ,技术 上 主要 归功 于 藉 规 模 测 序 技 术 的 建立 (如 
ABI3700 测序 下 作 站 ) .细菌 人 工 染 色 蛋 (BAC) 文 库 的 使 用 (主要 为 Roswell Park. 肿瘤 研究 
所 构建 的 RPCI- 11 文库 ) ,以 及 生物 信息 学 序列 组 装 技术 等 。 与 国际 人 类 基因 组 计划 协作 
组 采用 的 染色 体 分 区 分 段 测 序 策略 不 同 ,美国 Celera 公司 由 Craig Ventor 领导 的 人 类 基因 组 
测序 小 组 日 1998 年 5 月 开始 采用 全 基因 组 “ 蕊 枪 法 ”( shotgun) 随机 测序 再 计算 机 集成 排序 
的 策略 ,于 2000 年 6 月 同期 宣告 工作 草图 的 完成 ,这 同样 得 蔓 于 六 规模 测序 技术 的 发 展 和 
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生物 信息 学 技术 的 发 展 与 应 用 ,所 不 同 的 是 应 用 了 鸟 枪法 随机 测序 技术 ”。 


3.1.2. 后 基因 组 时 代 的 任务 和 目标 二 ” 
后 基因 组 时 代 的 任务 主要 分 以 下 四 大 领域 。 
3.1.2.1 基因 组 与 Eih F (genome to biology) 


CAFR K F FF 存在 一 些 难 测 序 区 域 ， 人 类 基因 组 尚 存在 约 2% 的 缺口 (gp) ,预计 
尚 需 花 10 年 左右 的 时 间 才 能 补 平 这 些 缺 11 ,需要 更 新 块 有 的 测序 技术 才能 守成 。 

(2 遗传 多样 性 研究 ” 主 鉴 是 SNP 研 党 . 单 体型 作 图 (haplotype mapping) 与 比较 基因 组 
研究 。 收 集 不 同人 种 样本 ,根据 SNP. 等 分 子 标记 构建 单 体 型 ,用 丁 疾病 基因 的 定位 和 连锁 
分 析 , 进 一 步 了 解 基因 变异 的 种 系 发 生 党 、 人 类 学 和 生物 学 功能 ,同时 通过 上 比较 基因 组 学 研 
究 , 了 解 基因 的 演化 机 制 和 生理 功能 。 

(3) 逐 条 完成 人 类 24 条 染色 体 的 组 装 与 分 析 BUT 2003 年 5 月 ,已 元 成 22,21,20， 
14,7 号 染色 体 的 全 序列 分 析 51 。 最 近 NHGRI 已 启动 DNA TAPAE (ENCODE) 计划， 
以 期 透彻 了 解 基因 组 中 结构 与 功能 的 关系 。 

(4) 了 解 基 因 与 蛋白 的 功能 ”在 代谢 组 和 细胞 组 水 平 进 一 目 了 解 基因 与 蛋白质 的 
功能 。 

3.1.2.2 X £n 5 # (genome to health) 

将 基因 组 信息 转化 ,为 人 类 健康 服务 。 

(1) 个 体 化 医学 与 药物 基因 组 学 ”通过 对 个 体 基 因 组 分 析 , 进一步 了 解 基因 变异 导致 
合体 对 疾病 的 易 感 性 或 抵抗 性 ,对 药物 的 敏感 性 或 硬 药 性 。 随 着 测序 技术 的 发 展 ,可 望 用 较 
低 成 本 对 各 个 个 体 的 全 基因 组 进行 测序 ,或 建立 基于 SNP 的 DNA 芯片 对 各 个 个 体 进 行星 

查 , 特 别 是 针对 那些 编码 区 的 沉 软 突变 ,利用 统计 所 谓 信息 学 方法 分 析 SNP 与 易 感 基因 或 
药物 性 状 的 相关 性 : 

(2) 基因 预测 医学 和 预防 医学 ”通过 基因 检测 进行 证 状 前 诊断 , 尽 足 二 预 或 采取 相应 
的 预 沪 措施 ,将 大 大 提 遍 生命 质 盘 和 人 类 寿 合 。 华 和 白 组 学 研究 也 为 症 茄 研究 提供 更 多 的 

(3) 疾 病 基 内 组 党 与 化 学 基 内 组 学 ”人 类 基因 组 计划 的 完成 已 大 大 加 速 疾 师 基因 的 定 
位 上 克隆 ,也 从 单 基因 病 过 渡 到 多 基因 病 基因 的 克隆 ,这 将 为 疾病 的 基因 诊断 , 产 前 诊断 .基因 
治疗 提供 更 简便 ,快捷 、 有 效 的 方案 。 了 解 致 病 基因 的 发 病 机 制 .代谢 途径 以 及 结构 特点 , 作 
为 药物 的 新 靶 点 ,以 求 寻找 更 有 效 .更 安全 的 药物 ,是 化 学 基因 组 学 的 重要 内 容 。 

3.1.2.3 基因 组 与 社会 (genome to society) 

趋 利 避 害 地 利用 基因 组 资源 ,使 之 服务 于 全 社会 。 

(1) 新 政策 保障 基因 资源 的 合理 利用 ” 受 善 利用 基因 资源 将 是 各 国政 府 面临 的 重要 深 
题 。 某 些 遗 传 病 基因 的 群体 第 查 需 要 相应 的 政府 决策 才能 更 好 地 为 群体 的 健康 或 人 生计 量 
服务 ,但 又 必须 符合 伦理 道德 规范。 

2) 基因组 与 种 族 、 民 族 的 关系 ”这 是 了 解 民族 多 样 性 的 生物 学 基础 ,但 需要 有 基因 非 
EFRR { genetic nondiscrimination ) 法 案 保 障 就 业 和 医疗 保险 的 公平 权利 。 
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(3) 基 内 与 行为 的 关系 研究 将 为 犯罪 学 和 社会 学 提供 更 大 的 挑战 。 址 传 与 环境 相互 
作用 的 研究 为 政府 制定 环境 保护 措施 提供 理论 依据 ， 

{4) 反 生物 恐 师 ”基因 组 资源 也 是 一 把 双 刃 便 , 服 务 于 人 美人 刍 康 和 人 类 社会 的 同时 ,其 
漆 用 也 可 造成 对 人 类 的 范 害 。 随 着 人 类 基因 组 的 解密 利 疾病 基因 组 的 妍 究 , 使 得 如 必 分 子 
可 以 和 用 大 娄 或 病原 体 基 因 组 作 肖 目标 进行 生物 了 恐 骨 活动 , 千 物 安全 将 时 全 球面 临 的 产 竣 
挑战 。 

3.1.2.4 基因 组 与 生命 (genome to fife) 

利用 环境 微生物 上 电 界 造福 于 人 类 。 

(A) 基因 组 分 析 ”解析 环境 中 关键 微生物 的 基因 组 结 梅 ,系统 分 析 各 基因 的 功能 ,在 重 
白 组 学 水 平 了 解 其 分 子 作 用 机 制 。 进 一 步 了 解 牛 物 圈 中 各 模式 微生物 的 调节 网 络 Le UIS 
物 之 间 的 相互 联系 及 其 与 环境 的 相互 作用 规律 。 

(2) 生 物 信 息 学 分 析 ”整合 所 有 测序 的 微生物 基因 组 信息 ,建立 相应 数据 库 ,并 加 以 檬 
氢 分 析 和 利用 ,解决 相关 的 环境 污染 .气候 变化 与 能 源 短 缺 问题 , 赣 福 于 人 类 。 


3.1.3 人 类 基因 组 的 结构 特点 中 

入 类 基因 组 包 插 两 个 相对 独立 而 又 相互 关联 的 基因 组 : 核 其 因 组 和 线粒体 基因 组 。 人 
FEAH E EZ 30 亿 碱 基 对 ,分布 于 24 条 不 同 的 染色 体 或 线粒体 上 。 线 将 体 基 因 纽 全 长 
约 16 kh ,参见 2.1.5.6 节 有 关 线 粒 体 的 介绍 。 因 线粒体 基因 组 相对 较 小 ,通常 人 类 基因 组 
是 针对 其 核 雪 因 组 而 言 。 人 类 基因 组 中 ,上 其 有 编码 功能 的 基因 及 其 基因 相关 序列 约 占 
25% ,其 中 所 有 外 量子 序列 的 总 和 约 占 基因 组 的 1 名 ;其 余 75 免 序列 为 基因 间 序 列 (intergen- 
ic DNA) ,又 称 基 因 外 序列 (extragenic sequence) 或 无 用 DNA (junk DNA) ,其 功能 尚 不 清楚 ， 
叮 能 参与 基因 表达 的 调节 ,通常 洁 较 多 的 重复 序 麟 。 基 因 存 染色体 上 的 分 布 并 不 均匀 ,在 染 
色 体 的 某 些 区 域 基 因 会 导 丰富 , 称 为 基 办 “绿洲 ” ,被 基因 稀少 的 沙漠" 分隔 。 有 关 基 因 的 
结构 参见 2.1.1 节 。 

3.1.3.1 基因 数目 

关于 人 类 基因 给 所 含 的 基因 数目 一 直 存 在 争议 ,最 近 善 裔 认 为 约 3 E AIEBAT], DJ 
A3& 7 号 染色 体 为 例 ' ,其 全 长 为 157 953 789 bp, Er 1 455 个 编码 基因 {包括 已 知 的 、 
新 的 .部 分 性 的 和 预测 的 蛋白 ) 和 213 个 非 编码 基因 。 依 些 类推 ,人 类 基因 组 会 有 约 2.9 万 
个 蛋白 质 编码 基因 和 3 700 个 非 编码 基因 。 由 于 选择 性 转录 本 的 存在 ,实际 存在 的 重 已 质 
种 糯 大 大 超过 3 HR. 例如 大 类 了 ,14,22 续 染 色 体 的 已 知 基 因 中 ,存在 选择 性 拼接 的 基 南 
分 别 占 55% ,54% ,5996 。 基 央 的 大 小 各 蜡 ,小 的 不 超过 1 kb, 大 的 可 超过 100 kb, ARF 
均 长 度 约 为 50 kb, 

3.1.3.2 基因 重复 序列 

人 类 基因 组 中 , 约 和 的 基因 序列 为 重 沉 序 询 (repetitive DNA), 呈 串联 状 或 分 散 状 分 
布 于 整个 基因 组 , 足 人 群 基 央 组 老 样 性 研究 ,进化 遗传 分 析 .染色 体 稳定 性 研究 ,基因 多 仿 性 
分 析 和 用 做 ОМА 身份 鉴定 的 重要 区 域 。 重 复 DNA 可 分 为 两 大 类 ; 原 位 扩展 重复 序列 和 转 
应 成 分 (transposable element, TE), 。 最 常见 的 重复 方 忒 是 申 联 重复 (tandem repeal), KERM 
单 重复 序列 (simple sequence repeat, SSR) 。 
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男 一 种 分 类 方法 是 将 重复 DNA 分 为 卫星 DNA 和 和 分散 重复 序列 两 大 类 .,, TÆ DNA X. 
称 高 度 重 复 序列 ,根据 重复 片段 大 小 分 为 微 卫 昌 DNA ПШ DNA 和 ae - 卫星 DNA。 通 常 
将 重复 单位 小 于 10 bp 的 称 为 微 卫 星 DNA ,重复 单位 大 于 10 bp 小 于 70 bp 的 称 为 小 卫星 
DNA,« -卫星 DNA 重复 片段 通常 在 70 bp HE. 微 卫 星 和 小 卫星 DNA 是 基因 组 作 图 和 染 
名 体 连锁 分 析 的 重要 标志 4;a - 卫星 DNA 主要 位 于 染色 体 着 毕 粒 附近 ,被 认为 与 染色 悚 联 会 
有 关 , 旧 前 被 广泛 用 做 染色 体 谈 光 原 位 杂交 (FISH ) PHREN - 

分 散 重 复 序列 常 分 为 短 分 散 重 复 序 列 {(SINR) 和 长 分 散 重 复 序 列 (LINE)。 前 者 重复 单 
位 - REIS 90 ~ 500 bp ,如 常见 的 Au 重复 序列 ,多 位 于 基因 让 富 区 , 占 整 个 基因 组 的 10% 2 
右 ; 后 者 重复 单位 可 长 达 7 kb,S 6 ТИ 重复 序列 。 这 些 分 散 重 复 序列 可 发 挥 转 座 子 
( transposon ) 的 作用 ,容易 引起 DNA 重组 或 医 因 突变 的 发 生 。 团 座 子 为 基因 组 中 可 移动 的 
序列 ,可 揪 入 到 基因 组 不 同 部 位 ,， 转 座 子 通常 分 为 璀 太 类 ;一 类 为 直接 利用 DNA 序列 编码 
蛋 钊 质 ( 转 座 酶 ) 并 在 基因 组 中 繁殖 ; 另 - 一 类 类 似 首 转录 病毒 的 尝 殖 方式 ,利用 RNA И уе 
为 DNA 后 , 肯 捅 入 町 基 因 弓 中。 这 类 和 转 座 子 让 基因组 的 插入 部 位 两 端 通常 具有 相 问 的 重复 
序列 ,与 转 座 子 的 长 末端 重复 序列 (LTR) 相 连 。 

日 前 已 建立 专门 的 重复 DNA 数据 库 , 称 之 为 Repbase Update( RU) (http://www. gi- 
rinst. org) ,已 收集 约 2 400 种 不 同 真 核 生物 的 重复 序列 。 基 因 重 复 序列 的 鉴定 和 分 析 方 
法 ,主要 依据 Smith - Waterman 运算 法 则 ,常用 两 个 网 站 进行 分 析 : http://www. girinst. mg” 
Censor. Server. html 种 hltp://repeatmasker, genome. washington. edu, 基因 组 中 有 HHE ЕН Л} 
的 鉴定 流程 为 :用 Repeat Masker 封闭 已 知 重 复 序列 一 得 到 相应 的 互补 序列 一 分 别 查找 正 向 
和 互补 序列 的 周 源 序列 一 进行 多 序列 比 对 { muhtipJle alignment) 和 通用 序列 (consensus se- 
quence) 分析 一 确定 靶 向 部 位 和 分 类 。 

3.1.3.3 基因 组 复制 

基因 组 复制 (genome duplication) 是 人 类 基因 组 的 普遍 现象 ,是 基因 家 族 和 同系 其 央 
( paralog) 产 : 生 的 重心 原因 。 共 因 组 复制 主 竖 包括 两 类 ;市 段 性 复制 {segmental duplication ) 
TIU: 3 Es HR Sa ( retrotransposition) 。 节 段 性 复制 是 基因 的 一 夫 段 或 整个 基 央 序列 的 重复 。 人 
类 基因 组 中 ,出现 节 段 性 复制 的 区 域 超过 1 000 + А EDS] 3 500 多 个 。 有 趣 的 是 ,这 种 
节 段 性 复制 所 产生 的 同系 基因 ,其 中 之 一 常 为 致 病 基 因 。 另 一 种 复制 方式 属于 逆转 录 病 毒 
的 转 座 质 入 方式 。 这 种 复制 产生 的 同系 基因 通常 不 含 内 含 子 ,而 是 出 现 多 个 拷 凡 现象 ,随机 
分 布 , 并 且 相 似 性 极 高 , 常 导 施 基因 座 断 中 较 难 克服 的 假 阳 性 


3.1.4 ”人 类 基因 组 的 多 样 性 

平 寺 而 吉 , 两 个 不 同 个 体 的 基因 组 存在 99. 996 的 相同 性 ,其 差异 大 族 相 当 于 每 1 kb 长 
WE DNA 中 存在 1 个 碱 基 的 不 同 。 如 果 这 种 碱 基 差 异 在 人 群 中 所 让 比例 超过 1% ,通常 称 之 
为 多 态 性 (polymorphism) 。 但 应 注意 ,在 某 些 孤 立 或 特殊 人 群 中 出 现 的 高 发 遗传 病 的 基因 
突变 ,有 时 突变 等 位 基因 上 闫 率 也 越过 1% ,此 时 不 应 当做 多 态 性 对 街 . 而 应 视 做 遗传 病 基 因 ș 
大 类 基因 组 中 ,最 常见 的 DNA $ 5, Ji ERE T BS AE ZS FE ( single nucleotide polymorphism, 
SNP) 。 据 统计 ,人 类 基因 组 中 ,平均 每 1 250 个 碱 基 中 就 有 一 个 SNP。 这 些 SNP HUE BE 
在 基因 间 序 列 , 也 可 出 现在 内 含 子 或 外 显 子 非 编 码 区 ,编码 区 SNP 相对 较 少 ,多 不 引起 氨基 
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酸 的 改变 。 这 种 位 于 基因 编码 区 或 调节 区 的 SNP 以 及 RNA 基 内 中 前 SNP 的 生物 学 意义 相 
对 重要 ,是 药物 基因 组 学 的 研究 重点 。 已 经 启动 的 SNP 单 体型 作风 ,是 基因 连锁 分 析 .基因 
定位 ,个体 识别 .进化 遗传 学 分 析 的 重要 工具 。 


3.2 A Pi par 7 


2001 Æ 10 Я, “ЕЕЕ A 25 38 А Н 89 S [aj FE Bd e £HLL— — A, ЖШ E £H ZH 2H C hu- 
man proteome organization, HUPO) Елі ЗУ ( http://www. hupo. org). 129 2H Н ДЕЗЕ, RH 
和 亚太 三 大 分 支 机 构 共 问 组 成 。 中 国 属于 业 本 НОРО 的 成 员 之 --。HUPO 的 各 项 计划 在 分 
步 实 施 之 中 。 有 内 前 主要 育 动 三 大 项 目 : 秆 浆 蛋 白 组 计划 ( plasma proteome project, PPP) .人 
类 肝脏 重 月 组 计划 (haman liver proteome project, HLPP) 14 E 8 F4 Fi proi f 8 35 HE ( protein 
standards initiative, PSI), НОРО 4ТЕ: Ж ne SCHRCH. fi ZB 2H eX, dE P] E EL ZR ТИ, ИП A 25 hu Ж 
ЧТР ( human brain proteome project, HBPP) 等 。 重 白 组 计 则 前 实施 需要 借鉴 НСР 的 成 
功 经 验 ,需要 组 织 金 此 界 一 流 的 蛋白 组 学 研究 队伍 、 良 好 的 组 织 管理 与 信息 交流 ,以 及 不 断 
发 展 的 适应 高 通 量 各 白 动 化 需求 的 新 技术 和 和 数据 处 理 方 法 。 


3.2.1 血浆 蛋白 组 计划 

该 计划 的 总 体 日 标 是 综合 分 析 正 常人 体 血 奖 和 血清 的 蛋白 组 分 ,并 比较 血清 与 血 柴 样 
本 的 差别 ;比较 件 球 不 同人 群 间 或 同一 国家 内 不 同人 群 问 血浆 江 白 的 差异 ;鉴定 疾病 状态 下 
血 桨 或 血清 蛋白 标记 物 。 日 前 已 有 14 个 不 同 国家 43 个 实验 室 和 参与 此 计划 。PPP 的 实施 需 
要 建立 标准 化 的 抬 作 方法 和 技术 平台 :主要 是 参考 得 桨 的 使 用 和 保存 . 旦 白质 分 离 分 析 方 法 
以 及 如 柯 去 除 含 量 高 的 常见 重 白 质 以 便于 短 量 重 品质 的 分 析 。 


3.2.2 肝脏 蛋白 组 计划 

HLPP 的 性 务 是 :综合 分 析 正 常 或 疾病 状态 下 上 肝脏 鼻 和 白质 的 组 成 ;了 解 蛋白 质 的 定位 
《又 称 定位 组 ,Jocalizome) ;综合 分 析 蛋 白质 的 相互 作用 和 代谢 网 络 图 ( 又 称 相 互 作 用 组 ,in- 
teraciome) ;建立 PPP 与 HLPP 的 相互 联系 , 找 由 相应 的 生物 标记 物 ; 解 析 肝 赃 蛋 白 组 与 肝脏 
转录 组 和 人 类 基因 组 的 内 在 联系 。 所 前 HLPP 主要 是 信息 收集 阶段 ,尚未 进入 实施 ， 


3.2.3 ”蛋白 组 标准 化 数据 库 

与 上 述 蛋 白 组 计划 相配 合 , 需 要 建立 大 型 数据 亩 ,以 供 结 打分 析 和 数据 比 对 。 这 要 浅 建 
立 统 一 的 数据 输入 方式 ,分 门 别 类 地 管理 , 何 时 使 于 自由 交换 数据 。 晶 前 欧洲 生物 信息 学 研 
究 所 (FRB1) 已 经 启动 这 ~… 弹 白 组 标准 化 数据 产 项 且 。 首 先是 针对 蛋白 组 学 两 大 关键 领域 的 
数据 , 即 质谱 和 和 蛋 月 质 相 互 作用 ,建立 相应 的 数据 管理 和 分 析 方 法 。 
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3.3 比较 基因 组 党” 


比较 基因 组 分 析 是 通过 比较 人 类 基 内 组 与 共 他 模式 生物 基 内 组 的 异同 ,以 便 更 好 地 了 
解 人 类 基 央 组 的 结构 利 便 十 蛋白 组 学 研究 。 模 式 生 物 也 是 咎 理 生 化 分 析 、 进 化 分 析 ,\ 疾 病 研 
究 行为 与 发 育 研究 等 的 重要 工 其 ,参见 图 3 -1。 这 些 模 式 牛 物 的 基因 组 相对 较 小 ,分 本 方 
便 。 人 类 基因 组 计划 完成 的 同时 ,小 鼠 .大 由 、 河 肪 , 果 刚 、 珊 纹 鱼 .水稻 、 面 包 酵 母 , 按 蚁 ,站 
原虫 .线虫 .多 种 细菌 和 病毒 ( 如 НУ A SARS) 等 基因 组 的 测序 也 相继 完成 ,各 基因 组 序列 
参见 http: www. ncbi. nih. gov/ PMGifs/Genomes/ailorg. html, 

ЖУ] АС Мр a [Ж AE [SL АН BRE АГАР Y ROS EUR 18 E OE R ЭРЛАН; Л) , 宿 
does CUR RR M COLUIT RUE PESE. BIDS Ж] ЭЧ DR PRSE ER BRE IHE ЖА ҖИТ 
规律 。 如 2003 年 春季 在 我 请 广州 .北京 .香港 以 及 新 山坡 . 川 拿 人 多 伦 多 等 地 流行 的 SARS 
病毒 ,通过 对 基因 组 的 分 析 , 了解 其 进化 关系 和 变异 性 ,我 出 其 他 动物 宿主 ,以 使 掌握 其 传播 
方式 。 更 主要 的 是 通过 比较 基因 组 分 析 , 了 解 与 共 他 冠状 病毒 的 差异 和 毒 力 产 生 的 原因 ,并 
通过 对 该 病毒 重 户 组 分 析 ,为 疫苗 的 研究 打下 基础 。 攻 上 SARS 的 难关 需要 病毒 学 家 .流行 
病 学 家 .基因 弓 学 家 . 重 折 组 学 家 .免疫 学 家 和 生物 信息 学 家 的 通力 合作 。 

小 限 的 基因 组 成 与 人 类 很 相近 , 因 其 易于 繁殖 ,是 遗传 学 .基因 组 学 和 蛋白 组 学 研究 的 
重要 材料 。 日 前 已 建立 许多 疾病 的 小 鼠 异型 。 这 些 模型 大 大 推动 了 疾病 基因 的 克隆 ,疾病 
分 子 机 制 探 讨 ,基因 治疗 研究 和 药物 研究 等 。 从 小 鼠 人 研究 所 得 结果 应 用 到 人 的 过 程 , 离 椒 开 
比较 基因 组 党 的 研究 。 大 羽 的 牛 理 与 人 类 较 接近 ,也 是 常用 的 模式 生物 。 


3.4 ”基因 组 医学 及 相关 的 社会 .伦理 .法 律 问题 nn 


HGP 的 完成 是 生命 科学 中 划时代 的 里 程 碑 ,因此 诞生 了 临床 医学 的 一 门 新 的 分 支 科 
学 一 一 基因 组 医学。HGP 的 完成 也 是 21 世纪 的 重要 生产 力 ,将 对 医学 .生物 制药 .工农 业 
生产 带 来 重大 变革 , 随 之 带 来 许多 相关 的 社会 学 .伦理 学 法律 学 的 问题 。 


3.4.1 预测 医学 的 发 展 趋势 

人 类 疾病 的 发 条 归 根 结 底 是 由 于 基因 在 作 峙 。 可 以 认为 , 除 理 化 损伤 外 ,人 类 所 有 的 疾 
病 都 是 “ 基 岂 病 ”, 包 括 结核 病 .艾滋病 等 外 源 因 素 ( 感 染 ) 所 致 疾病 也 与 人 体 的 易 感 基因 或 
多 态 位 点 有 关 。 表 3 -3 所 列 为 常见 疾病 的 相关 基因 。 这 些 相关 鞭 因 的 检测 作为 症状 前 诊 
断 依 据 是 今后 预测 医学 的 重要 内 容 。 此 外 ,通过 检测 药物 反应 的 相关 基因 或 多 态 位 点 ,以 指 
SE PH] 25 ,也 是 预测 医学 的 内 容 , 详 见 9.2.3 节 。 
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表 3-3 常见 疾病 的 相关 基因 


疾病 名 称 相 美 基因 жий. HERH 
| 老年 性 痢 来 APOF4 Ar BLEU DR 
TFS 3 1k tt ЖИК PPAR./SUP? 哮喘 病 ADRB2 
Ж ИКИ DA HLA - DQ, TRES) АШЕР NRCI/5 - НТ2А 
{Е HDI. ERLA ABCAI BERTA 线粒体 DNA 
动脉 颖 样 硬化 СЕТР f e А BE НА -G 
心血 答 病 FAT/CD36 3L 8g Еа BRCAI/BRCA2 
JEFES ñL FE АСЕ/АСТ Кар MSHI /MSH2/MSIIG3 
App RENE PPARa AIDS CCRS 


3.42 应 用 基因 组 学 的 发 展 

随 善人 类 基因 组 if 划 的 完成 ,基因 资源 在 临床 医学 中 的 点 用 已 日 益 广 泛 , 主 要 体现 在 以 
FLEE.: 

3.4.2.1 疾病 的 基因 诊断 与 产 前 诊断 

据 佑 计 , 人 类 基因 组 约 舍 3 万 个 基因 ,截至 2003 年 5 月 ,已 明确 1 510 个 基因 的 突变 可 
导 禾 相 应 的 疾病 , 主 变 为 单 基因 病 。 理 论 上 ,这 些 被 馈 明 的 基因 突变 ,都 可 建立 相应 的 基因 
座 断 方法 ,并 用 于 产 前 诊断 。 

3.4.2.2 药物 个 体 反 应 性 评价 

个 体 化 医学 (individualized medicine ) 将 针对 每 个 个 体 疾病 表 型 的 特点 .药物 反应 性 等 
进行 合适 的 诊断 和 治疗 ,而 不 像 传统 医学 中 那样 ,对 于 任何 - .种 诊断 方法 或 治疗 药物 都 是 通 
用 的 。 药 物 个 体 反应 性 主要 基于 个 体 的 单 核 背 酸 多 态 性 (SNP) 。 和 研制 一 种 新 药 时 , 须 同 时 
研究 药物 敏感 型 或 抵 入 型 相关 的 SNP ,通过 检测 这 些 SNP ,指导 合理 用 药 。 参 见 9.2.5 节 。 

3.4.2.3 DNA $ f EE 5g Xxx 

由 于 基因 组 的 多 样 性 ,DNA [65 ds fur S BO RR УАДЕ, 依照 遗 传 学 规律 , 子 
如 的 身份 标记 必定 来 睛 于 双亲 , 据 此 可 用 于 身份 鉴定 或 亲子 鉴定 。 目 前 最 常用 懒 个 人 身份 
的 DNA 标签 蚌 一 种 DNA 短 捉 联 重复 序列 ( STR ) ,美国 ABI 和 Promega 公司 相继 推出 一 套 
16 个 STR 位 点 的 检测 系统 ,用 于 个 人 识别 和 亲子 鉴定 ,其 亲 权 关系 排除 率 可 达 99. 9896 以 
土 。 这 套 系 统 也 用 于 公安 刑侦 中 的 重要 法 医 物证 鉴定 .罪犯 数据 库 建 立 РЕВВА BX 
合 度 鉴 定 .医学 差错 鉴定 等 。 目 前 也 在 试用 SNP F 5-4 ASAS IK AE АЛУ 9 - 11 事件 中 
Vit Hob ELI | sg ,特别 是 对 可 能 已 降解 的 DNA 标本 , 仍 有 可 能 分 术 那 些 扩 增 片段 
大 小 在 100 bp р МР. 

3.4.2.4 植 入 前 焉 传 党 诊断 与 胎儿 选择 

植 人 前 遗传 学 诊断 (preimplantation genetic diagnosis, PGD) 是 在 体外 授精 (in — vitro fer- 
tilization, IVF) 011: , ДА Sg d ERE EG ЖОН АП 6 — 10 个 细胞 阶段 ,采集 1 -2 个 细胞 对 遗传 病 
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进行 诊断 的 一 种 方法 ，PGD ИЙ ЛЛ И) ИЕ ЕЙЕЛ ЙИ БУ ЖДИ ¿IB Bia PCR 或 FISH 技术 的 建立 。 有 是 
胎 活 检 技 术 是 在 显 微 操作 下 ,将 肘 胎 进行 预 处 理 使 状 胎 外 局 的 透 晶 区 变 医 ,再 用 纤细 的 玻 珊 
BEAM, REL ~2 个 细胞 ,经 单 细胞 PCR 扩 增 后 ,可 对 某 些 单 基 因 病 进行 诊断 ,或 
通过 FISH 技术 对 妇 色 体 病 进行 诊断 ;将 确诊 为 止 常 的 钙 治 移植 到 子宫 肉 。 国 内 外 已 成 功 
地 开展 密 种 遗传 病 的 村 人 前 和 遗传 学 诊断 ,站 a Xi h. ЕТЕ HbS 病 、 马 凡 综 合 
МЕ аа Е. DMD , 范 可 尼 贫 血 等 。 日 前 此 法 国 技 术 要 求 高 且 体 外 授精 所 需 费 用 昂贵 ， 
尚未 得 到 普及 应 用 ,预计 将 有 更 密 的 疾病 通过 PGD 技术 进行 有 笋 的 胎儿 选择 。 

2.4.2.5 AAJ 

随 着 人 类 疾病 分 子 生物 学 研究 的 深入 及 DNA 重组 与 基因 转移 技术 的 发 展 .导致 了 基因 
治疗 (gene therapy) 方 法 的 诞生 ,并 从 理论 上 使 其 些 遗 传 病 特 别 星 单 基 内 病 得 以 根治 。 基 因 
治疗 十 指 运用 重组 DNA 技术 ,修复 患者 体内 有 缺陷 的 基因 而 恢复 该 基因 正常 的 功能 ,以 丢 
到 治疗 该 遗传 病 的 目的 。 包 括 基因 修正 .基因 抑制 .基因 添 加 等 方案 。 基 央 修 正 是 定点 导 人 人 
外 源 正 常 基因 ,代替 有 缺陷 的 基 网 。 基 因 抑 制 是 占用 反 浆 核 芽 酸 ТЇШ КМА СЕМА) ВОИ 
(riboryme) 抑 制 体内 过 度 表达 的 基因 , Ane Ав р. dE TRIS JE RE EA УРА, ПТ 
HA EIE X ER SR E EE die BA ЖЕМ, pA Крл, mE ARCH TE? НЕН) a fi ЕТЕУ fF 
用 ,相当 于 ` 酶 的 替代 疗法 ,药物 基因 治疗 是 指 应 用 某 些 药物 来 诱导 或 抑制 基 些 基因 的 表达 。 
基因 浪 籽 的 临床 广泛 应 用 取决 于 转基因 技术 的 安全 性 和 有 效 性 。 

3.4.26 基因 制药 与 基因 疫苗 

利用 基因 重组 技术 ,将 某 些 具有 治疗 或 预防 价值 的 基因 克隆 到 一 定 的 载体 中 ,通过 体外 
或 体内 表达 ,得 到 相应 的 药物 或 疫苗 。 基 因 重组 技术 自 20 世纪 370 年 代 诞 生 以 来 ,目前 已 在 
新 药 及 疫苗 的 研究 与 于 发 中 发 挥 极 其 重要 的 作用 。 

3.4.2.7 转基因 动物 

广 六 的 转基因 动物 主要 指 利 用 基因 转 物 技 术 培 育 的 新 的 动物 品种 的 方法 ,包括 以 下 几 
个 方面 :- -是 转基因 动物 模型 。 即 将 外 源 基 内 导入 (knock -in) 动 物 基因 组 使 其 成 为 特定 的 
动物 模型 。 例 如 ,利用 乙肝 病毒 基因 导 人 小刀 ,可 复制 出 乙肝 的 转基因 小 电 檬 型 ,用 于 坚 学 
Е. АИИ C knock - ont) 动物 。 即 将 动物 中 某 种 特定 的 基因 通过 基因 操作 技术 ， 
[ICH Ac 18 ,或 者 通过 基因 诱 变 (mutagenesis ) 使 皇 种 基因 失 活 而 产生 的 动物 。 主 要 用 于 赋 究 
基因 的 功能 与 疾病 表 型 或 复制 动物 模型 。 三 是 动物 乳 由 和 牛 物 反应 名。 是 指 利用 原核 昂 微 注 
58 ( pro — nucleous microinjection) 技术 ,将 外 源 基 因 和 定向 尼 和 人 动物 中 ， 使 其 在 乳腺 中 表达 , 产 
物 可 在 乳汁 中 分 离 得 到 。 这 种 转基因 动物 可 成 为 某 些 药物 的 生产 "了 T 厂 ”。 例 如 ,将 人 白 蛋 
ЕТ АЕ Е А (ЕРО) Ж А Ша АЕ и, НЕ В ОАА ЛУ ПОЕ AR 
ЕРО. р: п). uBxDSHA HEBR ЛА 22 Ре BJ) IR 18 2268 BB НУ RUBRI ER , 移 
人 人 体 细 胞 的 胞 核 ,并 使 之 发 育 为 个 体 的 过 程 , 称 为 核 移 植 ,或 生殖 性 克 降 (reproductive clo- 
ning) , 可 在 哺乳 动物 中 完成 无 性 生殖 的 过 程 。 这 就 是 1997 年 英国 罗斯 林 研 究 所 创造 的 靶 
动 全 球 的 克隆 羊 " 多 苛 ” 的 诞生 过 程 。 目 前 国内 外 科学 家 相继 克隆 了 其 他 物种 ,如 和 牛 、 快 、 
鱼 、 菊 . 马 等 。 这 种 克 降 技术 虽然 给 上 物 党 研究 .动物 品种 的 保存 和 繁殖 ,疾病 治疗 等 带 来 巨 
大 的 潜力 ,但 与 此 同时 ,其 应 用 也 引起 广泛 的 伦理 和 社会 方面 的 争议 。 由 于 这 种 技术 应 用 于 
人 体 ,使 得 "克隆 人 "在 技术 上 成 为 可 能 ,由 此 引发 "生殖 性 克隆 ”和 “治疗 性 克隆 ”的 广泛 伦 
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理学 争论 和 相关 法 规 的 制定 。 


3.4.3 遗传 咨询 与 迪 传 伦理 学 的 新 范畴 

大 糯 菜 因 组 计划 的 完成 丰富 了 遗传 咨询 利和 遗传 伦理 学 的 内 容 ， 遗 传 咨询 (genetic 
couseling) T Ei e if] Pš Ul counselor ) 0 VF i£] ( counselee ) ( 18t f£ fj E& 34 EAR Hoa Ja ) s AE 
Rh fe dog TE 22 т ВО c Е TEE 65 ‚+ DASS BERI v8 L BH Tn f P] RR, ET ЖАЛ ERI 26 18 
和 讨论 ,使 患者 或 其 家 属 对 该 遗传 病 有 全 面 的 了 解 , 选 拉 最 适当 前 决策 的 全 过 程 。 一 般 可 分 
为 婚前 咨询 .生育 咨询、- 般 咨询 等 遗传 咨 询 过 程 中 ,必须 遵守 的 一 大 原则 是 : 非 指令 性 原 
则 .尊重 原则 和 保密 原则 。 通 过 对 人 类 基因 组 和 遗传 辣 病 理 的 认识 ,近年 来 跟 传 咨询 中 非 色 
典 务 德 汞 遗传 现象 [或 称 外 泪 传 学 (epigenetics) 现象] 已 引起 广泛 关注 ,同时 新 技术 的 不 断 
涌现 和 应 用 ,使 址 传 咨 调 山 必须 桩 咨 调 过 程 中 作出 合理 的 解释 和 利用 。 

遗传 伦理 学 { genctic ethics) 起 伦理 学 的 一 个 分 支 ,主要 阐明 有 闫 遗传 检测 技术 应 用 和 
让 传 资源 利用 的 伦理 ,道德 和 社会 方面 的 问题 。 遗 传 伦理 学 以 个 人 权利 .家 庭 利 益 和 社会 利 
益 作 为 讨论 的 中 心 。 由 于 遗传 性 疾病 的 终身 性 、 难 治 性 .可 站 传 性 等 特点 ,可 能 市 此 引发 - - 
系列 的 心理 和 伦理 问题 。 随 着 人 人 类 基因 组 计划 的 完成 ,这 种 基于 人 类 基因 资源 的 遗传 服务 
( genetic service) 已 得 到 越 来 越 广 泛 的 应 用 ,相关 的 遗传 伦理 党 问题 的 争论 也 将 越 来 越 激烈 。 
例如 有 美 抬 儿 选 择 、 克 隆 人 .于 细胞 治 辣 .症状 机 诊断 .基因 治疗 SEED SNL REDI аР. H 
前 许多 国家 已 出 人 台 相 关 的 法 律 法 规划 以 规范 ， 早 在 1990 年 ,人 类 基因 绢 计划 (HGP) 已 专 
门 设 立 了 伦理 earte mn” (Ethica, Legal, Social Implications, ELSE) 专题 研究 组 
(http://www. nhgri. nih. gov/ELSI) ,召集 各 路 专家 如 医学 遗传 学 家 ,伦理 学 家 ,历史 学 家 、 理 
论 家 .法 学 家 ,政策 分 析 员 .社会 学 家 等 ,主要 研讨 有 关 HGP 相关 的 伦理 法律 和 社会 问题 ， 
制定 相关 上 政策 和 法 规 ，ELSI 首要 解决 以 下 4 全 方面 的 问题 :遗传 信息 的 隐秘 权 和 会 平 利 
用 ;新 的 过 传 工 程 转 术 度 用 于 痢 床 的 安全 性 和 有 效 性 :遗传 妍 究 相关 问题 ;公众 及 职业 教育 。 
随 着 人 类 基因 组 资源 的 广泛 应 用 ,遗传 伦理 学 也 将 面临 更名 严峻 的 课题 和 挑战 。 
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3.5.1 ЖЕНЕ 

基因 组 图 (genomic map) ЕЙ H1 — $E BS FE landmark ) 将 基因 组 DNA HE, ETE 
的 定位 分 析 和 和 了解 基 国 问 的 连锁 关系 。 晤 常见 的 3 ЭЕ АЦ Fd 29 : ЖЖ ЛД} ESL ( eytogenetic 
map) 3st f Él ( genetic map) MHAM] (physical map) 。 目 前 在 一 大 公共 基因 组 数据 库 中 可 
以 见 到 这 了 种 不 同 网 谱 的 整合 图 。 

3.5.1.1 细胞 遗传 图 

细胞 遗传 几 是 通过 特殊 的 染色 方法 将 各 染色 体 分 成 不 同 的 区 带 ,按照 轩 际 人 类 细胞 遗 
忧 学 命名 委员 会 (ISCN) 的 命名 原则 ,从 染色 体 着 经 粒 并 始 沿 染色 体 的 臂 向 远 端 开始 标记 区 
AIRE. 命名 某 个 区 带 时 按 以 下 顺序 DEBR E OSHT S p R a) 95; Tik PC 


%, 
Ж 


РН = Gr Je РАЛЬ ЯТКАН ЧЕР s LU 10р24.2 表示 10 e He CLE 2 САЖ 
2 亚 带 ,这 使 是 细胞 遗传 学 中 的 核 型 分 析 ( karyotyping ) 和 染色体 病 诊 断 的 基础 。 对 于 特定 
的 DNA 片段 或 基因 ,可 以 通过 荧光 原 位 杂交 (FISH) 技术 ,将 共 定 位 在 染色 体 的 特定 区 带 
位 置 。 

3.5.1.2 HAR 

BEE SL Bode LES] ( linkage map) НЫ RRT PR R (8 DS BS V isk S 38, 
在 后 代 中 可 观察 到 两 个 比邻 的 分 子 标记 可 以 出 现 连 锁 或 分 离 现 象 ， 通过 计算 共 重 组 的 概 
率 ,得 出 相 邻 分 子 标记 的 距离 。 通 常 以 重组 率 [ 以 4 表示 } 为 1 名 时 ( 见 平 均 每 100 次 碱 数 分 
裂 中 观察 了 1 次 交换 现象 ) ,遗传 图 距 为 1 厘 摩 (eentimorgan，eM) ,大 致 相当 于 1MDb 的 物理 
图 此 。 遗 传 图 中 所 用 的 遗传 标记 有 多 种 。 最 早 便 用 的 是 重 白 多 态 标记 ,如 血型 .血清 蛋白 
等 ,其 后 发 展 到 DNA 标记 。 第 一 代 DNA 标记 为 基于 限制 性 内 切 酶 谱 建 立 的 限制 性 片段 长 
度 多 态 性 (RFLP 标记。 串联 重复 DNA 的 发 现 , 进 - 步 过 波 条 可 变数 旧 串 联 重复 片段 多 态 
性 (YNTR) xig, BU 1258 DNA , 属 第 二 代 DNA 标记 。 短 串联 重复 片段 多 态 性 (STR ) 标记 
或 微 卫 星 DNA 的 使 用 ,使 遗传 作 图 更 精细 ,这 是 第 三 代 DNA 标记 。 随 着 基因 组 计划 的 完 
成 ,型 已 并 始 使 用 单 核 芽 酸 多 态 性 (SNP) 标 记 , 即 第 四 代 DNA 标记 绘制 遗传 图 。SNP 的 查 
jk x I, SNP 数据 库 ( http : ZZ www. пећ. nim. nih. gov/SNP) , 遗传 图 是 物理 作 图 和 定位 克隆 
的 基础 ,也 有 利于 发 现 重组 热点 。 

3.5.1.3 ”物理 图 

物理 图 是 用 来 模 述 界 标 问 的 物理 距离 ,类似 高 速 公 牙 上 的 里 程 标记 牌 。 最 早 败 做 物理 
图 的 界 标 是 RFLP。PCR 发 明 后 ,主要 使 用 序列 标签 位 (sequence ~ tagged site，STS) 作 为 界 
标 ,STS ORT A jË http://www. ncbi. nm. nih. gov/dbSTS, STS 除 STR 外 ,主要 来 日 于 衣 
IRE PIETE (expressed sequence tag, EST) 和 ВАС 克隆 未 端 序列 的 定位 结果 。 人 类 基因 组 
计划 实施 过 程 中 , 曾 使 用 丙种 常 轩 的 STS 作风 法 ,好 醇 母 人 染色体 克隆 CYAC)STS 作 图 和 
Wahi 48 РЕ Р radiation hybrid mapping, RH) , Z W http://www. nchi. піт. nih. gov/gene- 
map99 。 随 着 人 类 基因 组 计划 的 完成 ,DNA ГЕН ЕЙГЕ ‚ЧН ЫЕ cDNA 文库 
得 到 的 EST 序列 也 常 被 用 微 物理 作 图 ,又 称 转录 图 。EST TUE FE S BL http://www. nchi. 
nlm, nih. gov/dbEST , 一 种 与 EST 3 [pL B Е ВОВЕ ST e SE FE BE 4 ( serial analysis 
of gene expression, SAGE) ,利用 cDNA rB 9 ~ 10 -1- XC UE RE, EGER [8] Н ZR ERE ЖМ Ж 
达 量 的 差别 ,参见 http ; Z7 www. nebi. піт. nih. gov/ SAGE, 


352 全 基因 组 扫描 

全 基因 组 扫描 (whole genome scan ,和 WGS) 是 疾病 或 性 状 相 关 基 因 分 析 的 重要 方法 ,一 般 
用 于 具有 家 族 史 的 家 系 样品 分 析 。 也 可 用 于 缺乏 家 系 资料 而 只 有 针对 群体 的 病例 对 照 
(case — control) Б HW WCS 己 广 活用 于 单 基因 病 、. 多 基因 病 或 药物 站 传人 性 状 的 分 析 。 
WGS 的 实质 星 对 涵盖 全 基因 组 的 分 子 标记 进行 的 连锁 分 析 ,我 出 其 中 共有 最 大 相关 性 的 分 
子 标记 ,并 假设 所 寻找 的 相关 基因 与 该 分 子 标记 紧密 连锁 ,有 凤 其 有 有 连锁 不 平衡 性 {linkage 
disequilibrim，LD) 。 相 关 性 一 般 以 全然 性 比值 的 常用 对 数 , 即 Lods 值 表示 ,其 计算 方法 参 
见 8.5.2 W. AE WCS 分 本 的 关键 在 于 样品 资料 和 分 子 标记 的 选择 以 及 Lods 值 的 计算 。 
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3.5.2.1 样品 资料 

关于 样 嫩 资料 ,如 果 是 县 有 家 族 忠 的 家 系 资料 ,尽量 采集 患 省 -级 条 属 ( 双 亲 、 同 胞 . 子 
万 ) 的 血样 ,并 有 完整 的 病例 记录 。、， 如 果 是 基于 群体 的 费 料 , 常 末 用 回顾 性 研究 ,在 与 患者 
МАТЕ УЕ АН А - 般 烛 求 祥 品 资料 足够 大 而 且 均 匀 。 对 于 其 有 遗传 异 质 性 的 疾 
病 , 应 注意 鉴别 诊断 并 如 以 排除 ,其 存在 会 天 大 降低 连锁 或 美 联 分 析 的 效力 。 如 果 存 在 人 性 
混杂 或 分 层 { stratification) 现象 ,应 注意 所 选 病例 或 对 照 的 分 层 均 衡 性 ,如 种 族 . 籍 民 . 生 活 习 
性 穆 环 境 等 。 对 于 群体 研究 中 的 对 照 人 和 群 应 进行 Hardy ~ Weinberg 平衡 检验 ,证 实 该 对 照 
AGERE ЗР pk ds 

3.5.22 分 于 标记 

目前 常用 的 分 子 标记 为 微 卫 时 DNA, NCBI 数据 库 中 已 建立 相应 的 微 卫 星 DNA 分 子 
标记 数据 库 { UniSTS) ,记录 该 分 子 标记 的 订 列 和 定位 以 及 相应 的 PCR 引物。 美国 Research 
Genetics 和 ABI Zn] S prm Л. us HOP WOS B) rr bie. HB BCT I9) 25 6 E 38 as BE PN 
扫描 ,六 和 且 可 选择 荧光 标记 的 WGS 试剂 ,便于 在 全 自动 测序 仪 上 使 用 ,达到 高 通 量 和 快速 准 
确 筛 选 ,同时 还 有 配套 Lods {ЕТТ Ж БЕШКЕ, 

微 卫 星 DNA 分 子 标记 ( 邯 STR) Bodies JE Hd @ k E Byrd ABIT, fr T ES [RI FE 
31], ii ELE SEDE Az [X th 32% AL, HT HUBER SO HEP oed ЖТ EIN ZR. ШЕРМЕТ. 
E DNA 的 突变 率 也 较 高 ,相反 ,SNP 多 态 位 点 分 布 相 对 均匀 ,有 些 位 于 基 央 编码 反 ,平均 每 
1250 个 碱 基 中 含有 1 个 SNP, 便 于 精细 作 图 ;而 日 其 突变 率 低 , 在 世代 和 传递 中 较 微 卫 星 DNA 
稳定 ; 只 要 选择 非 同系 基因 的 SNP, 其 序列 特异 性 高 ,不 易 出 坝 非 特异 扩 增 产物 。 因 此 可 以 
预见 的 是 ,不 久 的 将 来 ,SNP 将 会 代替 微 卫星 DNA ,成 为 新 一 代 WGS 的 基本 工具 。 

据 佑 计 , 大 类 基因 组 中 约 含 2.4 百 万 个 SNP。 国 际 人 类 基因 组 协作 组 已 于 1998 年 启动 
SNP 的 测定 计划 , 岂 前 已 基本 完成 ,并 收录 于 NCBI 的 dbSNP 数据 亩 中。 如 何 从 中 选择 用 于 
WGS B3 SNP 是 目 闻 讨论 的 重要 议题 ,需要 综合 考虑 以 下 儿 点 。 

())SNP 的 连锁 不 平衡 性 TD 的 表示 方法 是 用 D 值 琢 示 , 界 于 数值 0 无 连锁 不 平 
fti) l CREAR EAD Z EJ. WOS 中 所 指 的 LD 38 5$ Je d6 RH D DAI-T- SNP. 昱 完全 连锁 本 
E, BB Ho + —4 SNP 可 100 多 地 预测 另 - .个 SNP。 这 些 邻 近 SNP 紧密 连锁 形成 小 区 
(block) ,遗传 学 上 称 之 为 单 体型 { haplotype) 小 区 ,被 视 微 一 个 遗传 单位 。 确 定 这 些 单 体型 
的 方法 首先 是 通过 统计 学 的 最 大 似 然 性 (maximum likelihood) 运算 法 则 来 粗略 估计 ,最 终 需 
要 和 依靠 基因 型 分 析 来 确认 

SNP 单 体型 一 般 为 5 ~ 150 kb, 同 -~- 单 体型 太 小 在 不 同人 种 中 有 一 定 差异 ,因此 国际 
SNP 协作 组 (TSC 1 于 2001 年 启动 SNP 单 体型 作 图 计划 ,通过 收集 不 同人 种 标本 绘制 出 单 体 
型 图 ,理论 上 每 -- 小 区 中 的 任何 SNP 者 可 代表 该 区 域 。 重 组 率 越 疝 ,ID Disp eR], B SNP 
单 体型 小 区 越 小 。 了 ID 区 间 太 小 在 染色 体 上 并 不 均 句 。 影 响 LD 区 间 大 小 或 重组 率 的 因素 
有 :性 别 ( 骸 性 重组 率 约 为 女性 的 2 倍 ) .染色 体 臂 (染色 悼 短 臂 重组 率 较 高 ) У 22 F BUJEE 
离 ( 离 着 丝 粒 越 远 ,重组 率 越 高 ) ,以 及 GC 含量 .重组 热点 ,自然 选择 等 ,一 般 认为 ,WOUS 中 
有 用 的 SNP 其 D’ 值 必须 大 于 0.5, 凤 所 选 的 两 个 SNP 相距 应 小 于 50 КЬ. ZELLE sr ЛЕ SNP 
单 体型 基础 工 的 SNP 为 选用 标准 ,平均 相距 30 kb, Ul] Fl WCS 的 SNP 共 需 10 万 个 。 

(2)SNP Bf m 29 9996 Bj SNP 位 于 基因 间或 内 含 子 , 通 常 与 疾病 没有 直接 关系 ,最 冤 
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ДЕ £i Зе ЖЕ, mp Hte appo ЖЕН ЩИ ДЕР, И] б 0А. D, SNP 的 选择 最 好 是 
基因 密集 区 ,但 也 不 能 完全 遗漏 基因 荒漠 区 。 一 般 认为 那些 位 于 基因 编码 区 昌 引 起 氨基 酸 
改变 的 SNP 其 临床 意义 最 大 ,其 次 是 那些 位 于 基因 上 游 调控 仅 的 SNP, 另 外 位 于 拼接 点 附 
近 的 SNP 被 认为 可 导致 屏 接 改变 ,产生 不 同 的 转录 本 。 通 常 焰 位 于 编码 区 的 SNP 称 做 cS- 
NP ,每 个 基因 平均 含 2 ~4 个 这 种 СМР. 这样, 大 类 基因 给 3 万 个 基因 中 ,eSNP 多 达 12 万 
个 ,车 检 浏 其 中 的 10% , 则 需要 检测 1.2 万 个 SNP。 估 计 约 40% BJ cSNP 可 导致 氨基 酸 改 
变 , 即 人 类 基 因 组 中 有 将 近 5 万 个 eSNP 可 异 致 氨基 酸 的 改变 . 还 有 人 建议 将 全 基因 组 扩 
描 改 为 全 基因 不 | 措 , 即 具 针 对 3 万 个 基因 中 的 SNP ATRE 

(3)8NP 的 频率 2⁄4 75% p СМР 上 其 基因 频率 小 于 1596 , FA 796, xx eO P TK B 
SNP, 其 多 态 信 息 含量 世 低 , 常 不 被 选 握 交 GS 的 SNP。 这 些 低频 率 SNP 存 第 查 人 和 群 数量 少 
时 ,特别 易 窒 冬 略 ,但 其 中 和 仍 可 能 其 有 各 楼 的 生物 学 意义 ， 

综 上 所 述 ,根据 SNP 的 分 布 特点 和 临床 意 六, 用 于 WGS 的 SNP 最 少 需要 3 HA, ВЯ 
当 于 每 个 基因 1 个 SNP, 覆 羔 全 基因 组 的 平均 距 虎 为 100 tb， 如 果 分 析 成 本 可 降低 到 
1 元 /SNP ,分 析 100 个 样品 也 需要 3 t Лс swak Е EL WS SNP - WGS 方法 庶 几 的 
ERES LA Яй 于 高 通 量 仪器 利 低 成本 检测 技术 的 发 展 。 图 品 混 合 ( pooling) 是 降低 成 本 的 方法 
之 一 , 们 不 适合 单 体型 分 析 。 

3.5.2.3 数据 分 析 

WGS 数据 分 析 的 基本 方法 是 进行 连锁 分 析 , 即 计算 各 分 子 标记 的 Lods 值 并 绘制 Lods 
H. Lods 值 的 计算 可 用 SAS 软件 (参见 第 10 章 ) 或 专用 WGS 基因 型 Lods 值 分 析 软 侍 ( 如 
Allegra)! ,也 训 用 且 前 遗传 流行 病 学 中 最 常用 的 软件 CENEHUNTER 进行 分 析 。 如 果 样 
上 量具 有 完整 的 家 系 资 料 ,通常 利用 传递 不 平衡 检验 (tansmission disequilibrium test, TDT) 来 
计算 高 风险 单 体型 ,这 需要 患者 双亲 的 样品 基因 型 分 析 。 呈 些 特殊 情 辣 政 ,如 中 老年 性 疾病 
{( Ж ГЕП . 癌 证 等 ) 骨 者 双亲 不 在 世面 得 不 到 样品 ,此 时 可 通过 受累 同胞 对 (affected sib- 
ling - pair, ASP) 分 析 单 体型 的 风险 率 , 参 见 8.5.3 Tr. 

对 了 翌 :结果 的 判断 ,一 般 认为 当 Lods 值 大 于 3.0 时 ,具有 临床 或 生物 学 意义 。 如 果 样 本 
的 十 扰 因 素 或 相互 作用 因素 多 ,即使 Lods 值 较 低 ,也 不 能 忽视 其 生物 学 意义 。 解 析 WGS 分 
村 结果 时 ,首先 考虑 Lods 慎 最 太 的 位 点 ,但 量 好 具有 重 现 忻 。 入 CS 沈 成 后 ,进一步 灶 该 区 
域 进行 精细 作 图 ,一 -方面 验证 WGS 的 缚 果 ,同时 对 候选 基因 精确 定位 ,便于 筛选 。 在 未 出 更 
SNP 的 WGS 试剂 前 ,作者 建议 先 用 微 卫 星 DNA 标记 进行 不 Cs ,再 检索 dbSNP 数据 库 ,利用 
SNP 作 精 细作 图 ,缩小 基因 关键 区 。 


3.5.3 定位 克隆 

目前 获 病 基因 的 渭 明 主要 通过 两 种 途径 : — :是 从 表 型 人 手 , 利用 定位 克隆 ( positional 
cloning) 方法 ,确定 致 病 基 因 ( 和 参见 http :// genome. nhgri. nih. gov/clone)。 二 是 对 于 新 发 现 的 
基 内 38 33 AT. 3E AE mutagenesis) ,观察 表 型 的 变化 ,以 明确 基 央 与 疾病 的 关系 。 候 选 基因 
研究 (candidate gene studies) 也 常用 于 疾病 或 药物 反应 型 基 内 的 克隆 ,主要 根据 性 状 表 现 或 
此 物 作 用 贰 向 来 确定 候选 基 央 ,进行 入 选 。 这 种 方法 成功 率 较 低 , 研 能 结合 定位 方法 , IU uS, 
功率 大 大 提高 , 称 之 为 定位 候选 克隆 方法 (positional candidate cloning) ,是 生前 疾病 基因 克 
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隆 中 最 常用 的 方法 。 遂 传 病 资 源 ( 家 系 资料 } 对 于 致 病 基因 的 克隆 起 重要 作用 动物 模型 
的 建立 也 是 化 病 基因 克隆 的 重要 和 手段。 生物 信息 学 是 致 病 基 财 克隆 的 必 宦 技术 平台 。 成 功 
EE :个 致 病 基 因 往 往 需要 遗传 学 ,分子 生 物 学 .细胞 生物 学 .让 物化 学 ,免疫 学 .病理 学 [н 
床 医学 等 多 学 科 问 的 密切 配合 。 

定位 俊 选 克隆 方法 往往 是 从 疾病 家 系 分 析 或 动物 模 殉 人 于、 根据 系 溢 图 确定 某 种 遗传 
病 莽 共 的 遗传 方式 , 常 通过 全 基因 组 提 撕 ,分析 STR 或 SNP 单 体型 与 疾病 的 连锁 关系 ,确定 
KPEK critical region) 和 进行 精细 遗传 作 图 。 

在 缺 乏 家 系 的 情况 下 ,小刀 模型 晨 定 位 克隆 中 最 常用 的 。 传 统 的 定位 收 选 克隆 方法 中 ， 
首先 是 建立 小 鼠 回 交 系 (backeross) , 38 Z] 388 P Pn a (genetice marker ) 5j j Si HE IR C linkage 
trait) 的 分 析 ,进行 遗传 作 图 。 将 入 病 基因 定位 于 梁 色 体 某 共 段 后 ,确定 该 致 病 基 因 所 在 的 
关键 区 。 根 据 该 区 域 的 STS 标志 ,制作 物理 网 ;并 利用 STS 标志 第 选 阳 忻 BAC 克隆 ,通过 对 
挑选 的 ВАС 克隆 的 末端 测序 .DNA 指纹 图 等 建立 ВАС contig, 对 关键 ВАС з, Ите jd 
法 ”(shotgun) 全 长 测序 ,或 通过 外 显 子 捕获 ( exon trapping) .cDNA fiit (СОМА selection ) ЗЕ 
方法 ,在 天 键 BAC 更 车 中 找 出 关键 区 内 所 全 有 的 基因 ， 从 中 筛选 出 候选 基 内 , 通过 罕 变 的 
检测 和 功能 鉴定 ,最 经 找 出 人 的 同 源 基 因 , 存 患者 中 进行 突变 第 查 , 俏 定 致 病 基因 。 

随 着 人 类 基因 组 计划 的 完成 和 生物 信息 学 的 应用 ,定位 克 旗 过 程 已 大 大 简化 。 传 统 方 
法 中 平均 尘 要 3 ~5 FA ЙЕ НЫН .现在 一 般 只 寡 1 ~2 年 时 间 ， 存 确定 致 病 基 因 关 键 
区 后 ,通过 3.6 节 将 要 叙 及 的 基因 组 分 析 方 法 ,可 直接 得 到 相应 的 物理 项 利 获得 该 区 域 的 全 
序列 ,并 得 刘 已 知 的 或 预测 的 基因 ,从 中 筛选 候选 基因 进行 突变 分 析 。 和 省 略 了 以 往 的 物理 作 
图 „ВАС contig 的 建立 和 基因 预测 分 析 的 过 程 , 也 不 册 使 用 外 刀子 桶 获 等 基因 饰 选 技术 。 

图 3 -3 示意 利用 完 位 候选 克隆 方法 确定 Hermansky - Pudlak 综合 征 -7(HPS — 7) 的 至 
病 基因 РТМВРЬ 的 遗传 与 物理 作 图 “!。 作 者 首先 在 已 确认 的 一 种 HPS 小 鼠 sandy (sdy) $R 
埋 中 ,利用 回 交 方法 ,建立 与 PWK 种 系 小 鼠 的 四 交 系 。sdy 是 来 源 于 DBAZ2J 种 系 的 日 发 管 
梁 芭 体 隐 性 突变 ,并 通过 连锁 分 析 初 步 定位 于 小 鼠 13 SREI Р. ARP i НУ ТЕЕ 
化 距离 上 相 跨 较 远 ,推测 有 较 多 的 分 子 标记 区 别 于 两 者 。 通过 对 1 250 Hg 5 BL 20 个 
13 号 染色 体 STR 分 子 标记 的 分 析 ,将 sdy 基因 定位 于 DI3MiD44 和 DI3Mit267 之 间 的 关键 
区 ,两 者 的 遗传 路 高 约 为 2.2 ceM。 利 用 这 些 STR 分 子 标记 作 探 针 , 筛 选 RPCI -23 BAC Ж 
E EIAI 4 BAC 的 contig。 同 时 利用 基 基 组 分 析 , 确 定 了 ;s 必 基因 关键 区 的 物理 图 ， 
定位 十 D 号 染色 体 43 Mb 附近 约 570 kb 的 区 域 。 该 区 域 仅 会 两 个 已 知 基因 jr 和 Dinbp] 。 
灾变 分 析 表 明 ,在 sdy/sdy А Dinbpl 基因 的 第 5,7 外 显 子 缺失 ,无 法 检测 到 相应 的 dys- 
bindin ÆA. HH BAC 原核 证 射 得 条 的 转 基 内 小 鼠 则 能 表达 证 常 的 dyshindin A ЧЕ 
HARME. БУ, ВТА Dinbpl 基因 的 突变 是 导致 sandy 小 鼠 的 原因 。 然 后 在 HPS 患者 
中 ,对 其 同 源 基 因 DTNBP1 ETRE AE ,也 发 现 病 理性 突变 , 战 为 继 HPS1 ~ HPS6 后 发 现 
的 又 一 种 HPS 基因 。 
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图 3-3 Л dy 基因 的 定位 候选 克隆 一 一 遗传 作 图 与 物理 作 图 
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3.61 基因 组 图 谱 的 整合 

三 大 基 内 组 数据 库 的 组 装 所 采用 的 信息 管道 (pipeline) 有 所 涉 同 ,但 都 是 根据 国际 人 类 
基因 组 协作 组 的 测序 资料 而 进行 。 由 各 测序 中 心身 GenBank. 存放 高 通 量 基 因 组 序列 
(HTGS) ,建立 相应 的 层 礁 路 径 文件 (tiling path file, TPF) ,其 中 包括 各 BAC sË BJ WW 
F RETE ЕНА АЕ С МВА (рар) 位置 等 。 

以 下 以 NCBI 人 类 基因 组 数据 库 为 向, 说 明 其 组 装 方法 。 分 以 下 儿 个 过 程 。 

3.6.1.1 АЖ E EM 

测序 资料 首先 需要 用 MegaBLAST BFF XF To Д PF 51 BE T fh Pe , ЈА Н Repeat Masker 对 
重复 序列 进行 标记 ,重复 序列 变 为 小 写 ,再 用 BLAST ЖЖ. po КЕТ 3E DS] £8 ШШ ЕБРР k 
jh. . 果 晤 等 , 男 外 需要 利用 Repeat Masker 对 小 鼠 重 复 序列 进行 科 选 ,并 用 电子 PCR(e - 
PCR) 筛选 小 鼠 的 STS。 任 何 序列 若 含有 来 自 非 人 类 的 其 他 基 内 组 序列 ,该 序列 即 被 删除 。 
最 后 得 到 的 可 用 序列 是 被 缺口 分 陋 的 序列 ,其 中 的 重复 序列 已 被 封闭 好 。 

3.6.1.2 序列 排版 (sequenee layout) 

此 步骤 主要 是 在 基因 组 contig 基础 上 进行 。 首 先是 对 单个 BAC 克隆 进行 排版 ,这 是 根 


FIE À Ë GE By d Jy dt dg d Sg 学 а. КӨ С HATH HI шла кд А дит RI SUAE RA GG LR HA алалы o 


J EXE ТРЕ X (ERI ЕК BL ,结合 染色 体 定 位 资料 进行 排列 。 利 用 MegaBLAST RREI 
的 某 些 非 TPF 序列 如果 能 向 缺口 区 延伸 ,此 时 也 被 拼装 起 来 。 然 后 对 相互 重 普 的 BAC 进行 
HHE, APRICA (redundant) 序列 。 位 于 不 同 染 色 体 但 也 相 辣 重 司 的 BAC Ж ЕЕ ЧЕ, 5 
全 被 包含 在 另 -更 大 ВАС 克隆 的 序列 被 删除 。 经 此 步骤 得 到 的 序列 通常 是 来 源 小 多 个 
ВАС 的 序列 。 

3.6.1.3 序列 组 装 fsequence assembly) 

# ЕУ contig 徘 版 基础 上 ,进一步 检测 相互 重 欠 序列 ,机 进 行 拼接 ,得 到 更 长 的 合并 序 
3) meld) ,这 种 合并 序列 的 排列 顺序 还 基于 已 知 的 EST 或 mRNA 序列。 两 个 不 相连 的 合并 
АЕ] 2 eu Bk D FH 100 个 “N” 填 充 。 最 后 根据 已 知 的 STS 标记 ,BAC 未 端 序 列 等 将 这 些 合 
并 序列 排列 到 染色 体 相 应 位 置 , 称 之 为 scaffold。 各 scaffold 排 布 于 染色 体 上 , 即 形成 该 染色 
T BRI FE FAES ( draft sequence map) . | 

3.6.1.4 基因 预测 

序列 图 拼 苇 后 的 一 大 任务 是 进 行 基 凡 预测。 已 有 不 同 的 基因 预测 软件 , 较 常 用 的 有 
Genscan, Fgenesh + 十 Ж, ОНАКВА SE r ЛЕП, ЯН ЛЕН ЫЕ ҮЛЕ F In] 时 利用 已 知 基 因 
进行 校 验 ,准确 性 较 尚 ,但 俏 有 一 定 比 率 的 假 阳性 和 要 阴 社 ,， 预 测 的 基因 吉 有 对 应 的 EST 
相 易 合 , 常 作为 该 预测 基因 存在 的 体 证 。 

3.6.1.5 з {1 (feature) 69 4 A 

序列 图 组 装 后 ,通常 需要 将 有 关 的 序列 变异 (SNP) STS 标记 .BAC ус ЕЙ FISH 定位 、 
忆 知 和 预测 基因 定位 及 其 基因 结构 模型 С 1 EST 或 mRNA ЛЕЗ RA RUTI Ул 
鼠 的 癌 源 序列 等 整合 到 序列 图 的 相应 位 置 , 节 后 形成 NCBI 的 Мар Viewer 数据 库 ，BAC Wë 
КЕЗИ STS 的 排列 通 浇 用 MegaBLAST ЖП е - PCR 分 析 读 ，SNP 的 排列 用 BLAST 法 。 GAHE 
国 及 其 相关 的 mRNA .蛋白 质 序列 的 排列 是 根据 RefSeq Jis Pe ,利用 MegaBLAST 方法 进行 。 
选择 性 拼接 形成 的 mRNA 也 排列 在 同 - 基因 位 兽 。 这 些 相 关 诺 列 的 排 烈 一 般 要 求 与 基因 
组 序列 的 相同 性 在 95 免 以 上 。 一 个 容易 出 现 的 误差 通常 发 生 在 mRNA 与 对 应 的 基 央 组 序 
列 出现 差异 的 情况 ,这 可能 是 测序 错误 ,组装 错误 ,多 态 位 点 或 者 同系 基因 ,计算 机 对 此 无 法 
自动 纠正 。 

3.6.1.6 建立 相关 链接 (LocusLink) 

用 于 佐证 已 知 基 央 或 预测 基因 的 相关 RefSeq mRNA 或 EST. 蛋 白质 序 列 等 可 通过 相 瑟 
链接 进行 查找 、 其 他 与 Map Viewer 链接 的 常用 数据 库 包 括 dbSNP, UniSTS, UniGene, Gen- 
Bank ，COG ,PubMed ,BLAST 等 。 

UCSC 和 Ensembl 数据 库 的 整合 方法 大 体 与 NCBI 相似 ,但 图 谱 中 所 包含 的 特征 有 所 不 
Te] ,建议 读者 使 用 时 根据 个 人 喜好 ,选择 其 一 数据 库 为 主 ,同时 熟悉 其 他 数据 库 的 功能 ,相互 
取长补短 ,站 活 使 用 ,久而久之 便 形 成 自己 的 一 套 检 索 刁 惯 。NCBI 数据 库 是 三 大 数据 库 中 
信息 量 最 大 的 ,相互 链 兵 较 容 执 。 但 其 他 两 天 数据 库 也 有 其 优点 ,例如 在 检索 与 mRNA 对 
Wy B dep £g ЛЕЗ, UCSC 的 BLAT search 功能 较 NCBI 的 BLAST search 便利 。UCSC 和 En- 
sembl 的 图 谱 较 NCBI E ec, 1 UCSC EHE EAE А лу {у ЖИРНЕН £X , МЕЛЕН БЕ pu RS DAL BH 
定位 及 其 邻近 关系 。 
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3.6.2 基因 在 基因 组 中 的 定位 方法 

以 下 分 别 竹 述 如 何在 NCBI UCSC , Ensembl 三 大 数据 库 中 定位 革 个 基因 的 方法 。 

3.6.2.1 Æ NCBI Fit 

进入 NCBI 3: Ui , A т Bb A. map viewer, fE search F T $ Rep ve es RS ë BU ht NB ,在 
search for ЖЕ АЖЕ ЁК, кт go, onse hl 2512 AED] ТЕ АТААН Фел S Ee |: OS] 
EER, жт АИИ] ЭА ГА] EROR RUBER. F rS šah ДЕНИ CS YR or SUITS (S 
体 号 .基因 和 名称. 图谱 成 分 .标记 类 型 和 图 湛 类 型 。 图 谱 类 型 中 ,人 类 基因 组 图 分 为 细胞 遗传 
图 利 序列 图 两 种 ,可 分 别 点 击 进 人 ,得 到 相应 的 定位 资料 。 兰 点击 进 人 该 条 由 中 的 图 谐 成 分 
(map element) ,会 得 到 该 基因 的 精 纲 定位 图 谱 。 点 击 右上 方 的 Maps & Options, SERE Р: 
求 选 择 所 请 向 谱 , 如 常用 的 细胞 遗传 图 (Genpes_Cyto) EDI ( Genes. seq) „ ТЕЗЕ ЛЕ 
列 图 中 ,用 线条 标明 该 基因 的 跨度 和 和 外 显 子 数 昌 和 太 敏 位 置 ,同时 有 一 系列 链接 点 。sv Ж 
示 序 列 查 看 ,ev 表示 该 基因 序列 的 点 持 证 据 ,hm 表示 大 与 小 羽 同 源 基 办 图 ,seg 为 该 基因 的 
全 部 基因 组 序列 ,mm 表示 基因 结构 组 成 。 在 定位 图 谱 的 括 侧 瞄 色 边 框 中 可 选择 放大 (zoom 
out) 或 缩小 (zoom in) 该 观察 区 域 , 以 便于 了 解 该 基因 的 近邻 关系 。 

3.6.2.2 在 UCSC 中 的 定位 

进入 UCSC ESE, EAEL Sh Browser 后 ,在 物种 下 拧 革 单 中 选择 所 需 分 析 的 基 
因 组 ,如 人 类 基因 组 ,然后 选择 序列 版 本 ,缺损 值 为 最 新 版 本 .在 position EPEA EDITI 
后 ,点 出 submit。 娃 日 显示 已 知 基因 和 КМА 相关 序列 。 在 已 知 基 因 栏 目 中 找到 所 需 查找 的 
条 目 , 点 击 进入 。 和 显示 结果 上 方 为 基因 定位 图 谱 , 下 方 为 量 示 内 容 戎 数 选择 。 如 内需 查找 该 
基 内 的 染色 体 定位 和 序列 图 ,参数 选择 如 下 :Base Position БЕ on, Chromosome Band j dense, 
Known Genes 选 full, RefSeq i full, EE EJ dude. (Egg S EIE, mudo xn 
F 方 的 refresh 才能 执行 。 在 图 谐 上方 position 3E rH £t 2] S or Er] 8k bi EL S CAE EISE Fed 
S ADT MCA IS AR ^ LECCE PAS E {ы ,可 在 图 谱 最 上 方 参 数 中 点 击 zoom out 或 zoom 
in 到 所 需 售 数 , 以 了 解 其 近邻 关系 。 若 需 查找 该 基 负 的 有 关上 序列 , ТЕ PEL RS Zi DER D Т, HE 
因 或 RefSeq 栏 日 中 点 击 该 代码 , 进 人 该 基 央 的 信息 窗 ,通过 Links to sequence 各 链接 点 ,可 
分 别 得 到 该 基因 的 蛋 户 质 .mRNA 和 基因 组 序列 等 ， 

3.6.2.3 Æ Ensembl 中 的 定位 

Ensembi 数据 涯 中 收录 了 人 人 .小刀 .斑纹 鱼 .蚊虫 等 基因 组 。 例 如 选择 人 类 基因 弓 , 壕 人 
HERA. 在 search 小 垃 菜单 中 选择 Gene, 然 后 在 indexes for ЙЕНЕ A ВТ hy pet S , 
点 击 Lookup , 则 得 到 所 和 需 结 果 。 显 示 基 因 条 上 月 部 有 一 个 Ensembl 编号 ,以 ENSG 符号 开始 ， 
后 接 - pgp ,组 成 该 基因 的 ID 5. ma hik IDP , 进 人 该 基因 的 详细 记录 文字 信息 。 其 中 包 
括 与 相应 蛋白 质 结构 域 利 家 族 的 链接 点 。 在 结果 第 二 栏 Genomic Location 中 ,显示 该 基 央 的 
序列 图 位 置 和 梁 色 体 编 号 。 点 击 该 位 置 , 进 人 Contig View 窗 , 上 方 图 谱 为 概要 图 , 星 示 该 基 
因 丰 染色体 的 定位 基本 信息 ,红色 框 内 为 该 基因 的 位 置 ,显示 内 容 包 括 染 色 体 带 、DNA con- 
t 语 .分子 标 记 和 基因 图 :，F 方 为 详细 图 ,只 显示 所 查找 基 国 所 在 区 域 的 相关 信息。 在 Fea- 
tures. 下 控 菜 单 中 可 进行 选 拌 观察 所 震 内 容 , 点 击 Refresh 更 亲 选 需 。 进 一 步 可 通过 缩放 揭 
择 观 察 该 区 感 及 其 与 邻近 基因 的 贡 系 。 若 返回 前 面 总 的 基因 查找 显示 结果 菜单 ,最 后 一 
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是 一 链接 点 ,进入 该 基因 的 结构 描述 窗 ,分 别 显示 该 基因 的 cDNA 序列 及 其 在 序列 图 中 的 定 
位 \ 外 显 子 -内 含 子 连接 区 位 置 、 各 外 显 子 序列 及 其 大 小 等 信息 。 

值得 注意 的 是 ,这 三 大 数据 库 中 ,对 于 同一 基因 有 时 出 现 不 同 的 基因 命名 ,甚至 序列 有 
细微 差别 (可 用 NCBI 的 BLAST 2 sequence 鉴别 其 异同 ) ,特别 是 那些 预测 的 基因 。 这 时 横 
向 比较 该 基因 在 不 同 数据 库 的 定位 时 有 些 困难 ,需要 借助 于 邻近 已 知 基因 的 关系 来 确认 。 
同时 各 数据 库 所 用 的 序列 版 本 可 能 有 所 不 同 ,同一 基因 在 不 同 数据 库 的 序列 图 定位 也 可 能 
出 现 细微 差别 。 一 般 地 ,描述 某 个 基因 的 定位 时 , 须 加 注 所 用 数据 库 和 序列 版 本 ,如 本 文采 
用 的 UCSC 人 类 基因 组 版 本 是 2003 年 4 月 版 。 最 后 一 点 需要 牢记 的 是 ,这 三 大 数据 库 在 不 
断 更 新 ,以 上 所 述 的 检索 方法 在 新 的 版 本 中 ,可 能 有 所 不 同 , 检 索 的 结果 也 可 能 有 些 差异 , 希 
望 读者 能 经 常 上 网 浏览 ,了 解 更 新 后 版 本 的 新 特征 。 


3.6.3 基因 的 结构 组 成 与 序列 检索 

若 已 知 基因 的 基本 信息 ,需要 检索 其 cDNA ,确定 基因 结构 ,得 到 基因 组 DNA 和 和 蛋白质 
序列 ,这 可 以 任 选 NCBI UCSC „Ensembl 三 大 数据 库 之 一 进行 检索 。 分 以 下 几 种 不 同情 况 。 

(1) 对 于 已 知 基因 ,可 以 查找 NCBI 的 UniGene, 每 个 条 目下 已 注 明 该 基因 的 蛋白 质 、 
mRNA 和 相关 信息 的 链接 点 。 点 击 相应 部 位 可 得 到 相应 的 序列 。 或 者 按 3. 6.2 中 所 述 基因 
查找 方法 ,利用 UCSC 或 Ensembl 数据 库 也 可 查找 得 到 基因 的 结构 组 成 信息 。 通 过 NCBI 主 
页 点 击 进入 Reference sequence project, 可 查看 到 已 知 基因 的 RefSeq 条 目 ,这 是 NCBI 的 数据 
库 维 护 人 员 通 过 文献 资料 .GenBank 条 目 和 基因 组 分 析 资 料 等 ,对 每 个 已 知 基因 确定 其 参考 
cDNA 序列 。 如 图 3 -4 所 示 , 为 NCBI 数据 库 中 检索 到 的 小 鼠 Dtnbpl 基因 的 RefSeq Ж Н 
(NM. 025772) 。 


К O 1: NM 025772. Mas musculus душ. (8:24415734] 


[E P-gi124475734|cef|NK 025772. =, Nus musculus dystrobrevin binding protein 1 (Dtnbpi), mRNA 
[I IGGCACO. 'G6GGAGGCTGCOGCOGC Gc: 200004 


(CACGGCCTTGGTC ACATTACACACTGACA 

'CCCAGGTGTC AGTGATGAC AGTGACCAGTGTGACTC AACTC AGGACATTTAAGTGACTTG 

CTCCTGC ARAGCC AGGTGCTTAGAGGTTTTC KATTTT AC ACACTTGCTAATG 
TAAAAARAAAAAARAAAAAAA 


3-4 ”从 NCBI 的 RefSeq r$ 9848 30865 JN BR Dinbpl ( NM. 025772) EK cDNA 序列 (FASTA 格式 ) 
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$, 
* (2) 如 果 只 知道 所 需 查找 基因 的 一 般 信息 ,可 以 先 从 NCBI 的 GenBank (3 nucleotide Ж 
项 ) 查 找 框 中 键入 基因 的 相关 名 称 ,可 以 是 全 名 ,也 可 以 是 基因 简写 。 从 所 显示 的 条 目 中 选 
择 含 整个 ORF( 基因 条 目 中 已 注 明 complete cds) 的 cDNA 或 mRNA 序列 ;在 DISPLAY 下 拉 
菜单 中 , 先 选 择 summary 选项 ,可 获得 该 基因 条 目 的 基本 信息 ,这 是 标准 的 GenBank 条 目 格 
式 。 其 中 已 注 明 ORF 的 起 始 和 终止 核 苷 酸 位 置 ,并 列 出 相应 的 编码 蛋白 质 序列 AREH 
质 序列 条 目 ,可 进入 GenBank 的 蛋白 著录 格式 。 在 DISPLAY 菜单 中 选择 FASTA 格式 (参见 
图 3 -4) ,将 所 得 序列 复制 后 ,另外 存 为 纯 文本 文件 或 WORD 文件 ,也 可 同时 打开 UCSC 数 
据 库 ,进入 BLAT search 选项 ,直接 将 序列 复制 ` 粘 贴 到 查找 框 中 (参见 图 3 -5) ,或 在 序列 框 
下 面 小 框 中 输入 已 保存 序列 的 文件 名 。 选择 所 需 查 找 的 是 人 、 小 鼠 、 大 鼠 或 SARS 基因 组 
等 ;序列 版 本 (freeze) 的 缺损 值 为 该 基因 组 的 最 新 版 本 ;分 析 对 象 ( query type) 为 DNA( 也 可 
输入 蛋白 质 序列 ,此 时 选择 分 析 对 象 为 protein ,该 缺损 值 为 guess) ;点 击 submit。 所 显示 的 
查找 结果 为 该 基因 组 中 相 匹配 的 基因 序列 或 同系 基因 序列 ,通常 完全 相同 或 相似 性 最 好 的 
序列 排 在 首位 (参见 图 3 -6) 。 根据 序列 大 小 、 染 色 体 定位 等 确认 所 需 条 目 , 点 击 该 条 目 左 
侧 的 details 进入 alignment 对 话 框 (参见 图 3 -7) 。 左边 框 显示 的 block 数目 一 般 为 外 显 子 
数目 。 由 上 而 下 ,分别 为 cDNA genomic DNA 和 序列 比 对 结果 。 显 示 的 cDNA 与 所 输入 的 
序列 不 同 之 处 ,或 无 匹配 的 DNA 序列 时 ,用 小 写 标 明 ,两 外 显 子 相连 接 处 的 两 个 核 苷 酸 用 浅 
色 标 明 ,5 和 3 非 编码 区 用 红色 标明 。 基 因 组 序列 中 ， 外 显 子 用 大 写 ,内 含 子 用 小 写 ,同时 
注 明 染色 体 号 及 其 相应 核 苷 酸 位 置 。 序列 比 对 具体 显示 所 输入 序列 与 基因 组 中 序列 的 异同 。 
图 3-5\ 图 3 -6、 图 3 -7 分 别 示 意 将 图 3 -4 的 小 鼠 Dinbpl 基因 cDNA 序列 复制 粘贴 后 查 
找 其 相应 基因 结构 的 过 程 。 
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BLAT Search Genome 
Genome: UE w w Sort — и tput - е: 


Please paste m a query sequence to see where it is located in the the genome. Multiple sequences can be (йезе 
searched at once if separated by a line starting with > and the sequence name 


GOCAC GAOGCCOGGGAGOCTGCOOCOOCOOCOGCOCOOTOAAGCGA 

GAGCCOAC Q! GGA 

CecCccoACGGCcGTCCGAGGGCGCGGTGGCGCGAGGCCTGAGGGAGG 
Ti 


GGACOC GGAGACCCTG 
|CGAGCGOCTOCTGAGCGTACAGCAOGATTTCACCTCCOGOCTOAAGAC: 
ААОТОАТААОТСААОАОАА 


CAGAC o 
GACAGCGAGGTGGTCATGCTGTCTGCCCACTGGGAOAAGAAGAGGAC 
CTGAACGAGCTGCAGGOG 
CAGCTGCAGCAGCTOCCCOCTCTCCTOCAGOACTTOGAGTCTCTGATG 


图 3 -5 将 图 3 -4 中 的 序列 粘贴 到 BLAT 检索 框 中 进行 检索 


BIF АЖЫ» ЖЫ # # ЕЕ ЗР 0 


Results 


| browser details TourSeq 1140 8 1310 1326 100.04 13 - 44409048 44488855 
БЕЗИ deraila YourSeq 158 633 790 1326 100.0* Un random  - 24670193 24670350 


———————  MÀÀ——— € € 
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Alignment of YourSeq and chr13:44409048-44488855 


Click on links in the frame to left to navigate through alignment Matching bases in cDNA and genomic 
sequences are colored blue and capitalized. Light blue bases mark the boundaries of gaps in either side of the 
ahgnment (often splice sites) 


人 
cDNA YourSeq 


GgcacgacGC CGGGGAGOCT GCGGCGGCGG CGGCGCGGTG AAGCGAGAGC 
CGACGCGCGG GGCGAGGOGA CGCCCGACGG CGTCCGAGGG CGCGGTOGCG 
CGAGGCCTGA GGGAGGGGAC GCGATGCTGG AGACCCTGCG CGAGCGGOCTG 
CTGAGCGTAC AGCAGGATTT CACCTCCGGG CTGAAGACTT TAAGTGATAA 
GTCAAGAGAA GCAAAAGTGA AAGGCALACC CAGGACTGCT CCACGCTTAC 
CGAAGTACTC TGCTGGACTA GAATTACTTA GCAGCTATGA GGATGCGTOG 
GCTGCACTTC ACAGAAGAGC CAAGGAGTGT GCAGACGCTG GCGAGCTGGT 
GGACAGCGAG GTGGTCATGC TGTCTGCCCA CTGGGAGAAG AAGAGGACCA 
GCCTGAACGA GCTGCAGGGG CAGCTGCAGC AGCTGCCCGC TCTCCTGCAG 
CTCTGATGGC AAGCCTGOCT CATTTAGAGA CAAGTTTTGA 
AACCATTTGC TGCACCTGGA ССАСТТСТСТ GGGCAGTSTG 
ACACAAGCAG GCCCAGGCCC AACACCTGGA GAGCTACAAG 
GGAAGGAGCT TGAAGCCTTC AAAGctgaac tcgatacaga 
aaggccctgg aeatggagca Ccacccagcaa ctgaagctga 
gaagttcttc gaggaagcct tccagcagga catggaacag 
cgggctacct gcagatcgca gagaggcgiG АСССТАТССС 
TCCATGGAAG TGAATGTOGA CGTGCTGGAG CAGATGGACC 
CTCAGACCAG GAGGCTCTCG ATGTCTTCCT GAACTCCOGC 
ACATTGTGAT GTCCCCTOGT GTGGAGATGG ААТССААССС 
GAAATGAG TTCAGATTCC AAGTCCCTCA GAATCAGCAT 
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图 3 -7 点 击 图 3 -6 结果 显示 栏 中 第 一 行 的 details 得 到 的 小 局 Dinbp1 基因 结构 组 成 与 序列 
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(3) 如 果 只 是 通过 测序 获得 一 个 cDNA 序列 , 须 查 找 对 应 的 基因 结构 ,可 按 上 述 第 二 种 
情况 中 的 UCSC 查找 方式 ,将 序列 粘贴 到 查找 框 中 ， 获得 基因 组 结构 组 成 信息 。 在 GenBank 
中 检索 某 个 基因 时 , 常 可 同时 获得 该 基因 的 mRNA 和 基因 组 序列 ,需要 了 解 两 者 的 对 应 关 
系 时 ,可 选用 NCBI 的 Spidey |. H.( http://www. ncbi. nlm. nih. gov/IEB/Research/Ostell/Spi- 
dey) 进行 排列 。 得 到 该 基因 组 序列 后 ,进入 NCBI 主页 ,点 击 右 侧 ORF Finder, 将 cDNA 序列 
粘贴 到 查找 框 中 (参见 图 3 -8) , 结 显示 不 同 的 阅读 框 。 点 击 最 长 的 阅读 框 参见 图 3 - 
9) ,得 到 相应 的 编码 子 序列 ,确认 是 否 具有 完整 的 ORF , 即 同时 具有 启动 子 和 终止 密码 。 这 
样 可 得 到 所 编码 蛋白 质 的 序列 。 


RF Find 
Finder 


ACCESSION [六 一 
e in FASTA format 


GOGAGOGG 


图 3 -8 将 图 3 -4 中 小 鼠 Dinbpl 基因 的 cDNA 粘贴 到 ORF 检索 框 中 


(4) 如果 需要 检索 该 基因 的 上 \ 下 游 侧翼 序列 (flanking sequence) , 以 分 析 该 基因 潜在 的 
调节 区 ,可 在 UCSC 的 BLAT search 结果 中 (上 述 第 二 种 情况 ) , 点击 所 选 条 目 最 左 侧 的 
browser 进入 基因 组 整合 图 谱 , 在 图 谱 上 方 的 position 对 话 框 中 将 原 序列 位 置 分 别 增加 所 需 
包括 的 侧翼 序列 长 短 , 点 击 jump, 则 所 更 新 的 图 谱 包 含 该 侧翼 序列 , 点击 最 上 方 工具 条 中 
DNA , 即 可 获得 所 需 基因 的 全 部 序列 。 如 果 是 已 知 基因 或 RefSeq ,在 基因 组 图 谱 中 点 击 该 基 
因 名 称 (如 3.6.2 节 所 述 ) ,在 Links to sequence 选项 中 点 击 进 入 Genomic Sequence ,在 Get 
Genomic Sequence Near Gene 选项 中 分 别 选择 Upstream 和 Downstream 所 需 序列 长 短 ,点击 最 
下 方 的 submit, 即 可 得 到 该 基因 的 侧翼 序列 。 


3.6.4 定位 克隆 中 关键 区 的 定位 和 候选 基因 的 筛选 
利用 3.5 节 所 述 方法 将 疾病 基因 定位 在 某 个 关键 区 后 , 接 下 来 的 关键 问题 是 如 何 通过 
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SixFrames Frame from to 

(View) CT GenBank. + J (Redraw) (109: + J 5їхїгәвез | 4l» 1» 1 i05 
Ee ла 1 38 > 
一 一 -1 m 274. 483 210 
ЕЕЕ -3 € 794.1000 207 

-1 8 1. 165 165 
Em a, -2 ш 765. 914 150 
TT 2 в 34.7143 150 
= +2 B1049 1186 138 


Ë ength: 352 aa 


124 ChORcCHON GC uc eu CT 
Q 


169 cccacerec cgugctgaagactttangtgataagte aagagangca 


3-9 点 击 图 3 -8 的 ORF Finder 的 结果 和 点 击 最 长 的 ORF 所 得 结果 


基因 组 分 析 确 定 候选 基因 。 关 键 区 的 两 端 为 STS 分 子 标记 。 下 面 分 别 以 UCSC 和 NCBI 数 
据 库 为 例 , 说 明 其 候选 基因 的 定位 与 筛选 方法 。 

进入 UCSC 主页 后 ,点击 左 侧 Browser, 选择 所 需 分 析 的 基因 组 ,如 人 类 基因 组 ,在 查找 
框 内 键入 两 端的 STS 标记 , A * 01051676; D10S1675" ,两 个 STS 间 以 分 号 隔 开 , 按 submit 
后 ,显示 图 谱 为 该 区 域 的 整合 图 ， 重新 设 定 参 数 表 。Base Position/on, Chromosome Band/ 
dense, STS markers/full, Known Genes/full, RefSeq/full, Ensembl Genes/dense, Fgenesh + + 
Genes/dense, Genscan Genes/dense, Human mRNA/full, Spliced EST/dense, Human EST/ 
dense, 其余 参数 选择 均 为 hide , 按 refresh。 所 得 到 的 图 谱 中 主要 显示 各 STS 位 置 ,所 包括 的 
已 知 基因 和 对 应 的 mRNA 或 EST。 需 要 显示 预测 的 基因 ,点 击 图 谱 中 相应 预测 软件 所 在 位 
置 ,如 Genscan, Fgenesh + +。 如 需 进入 某 个 已 知 基 因 、 预 测 基因 或 EST 的 相关 信息 和 序 
列 ,将 鼠标 移 到 图 谱 左 侧 的 名 称 上 ,点 击 进入 。 列 出 所 有 已 知 基 因 和 预测 基因 条 目 , 即 为 该 
关键 区 内 的 候选 基因 。 筛 选 时 一 般 从 已 知 基 因 开始 ,首选 那些 功能 相关 的 基因 。 但 应 注意 ， 
一 些 较 大 的 已 知 基因 可 能 具有 不 同 的 结构 域 ,因而 表现 为 一 个 基因 多 种 功能 ,不 能 武断 地 排 
除 某 些 已 知 功能 的 基因 。 如 果 已 知 基因 中 未 发 现 突变 , 则 需要 筛 查 那些 预测 基因 ,通常 先 从 
那些 有 EST 佐证 的 预测 基因 开始 ,逐个 排查 。 

者 选择 NCBI 数据 库 , 首 先 从 主页 进入 需 查 找 的 基因 组 ,如 人 类 基因 组 ,在 染色 体 图 谱 
中 ， 扣 击 进入 该 基因 所 在 的 染色 体 ， sinis 点 击 右 上 方 的 Maps & Op- 


іб 


进行 添加 或 删除 选项 。 添加 时 ， 在 左 框 中 选择 参数 后 ， 按 ADD, 则 进入 右 框 ;删除 时 ,在 右 杠 
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选择 参数 , 按 REMOVE( 参 见 图 3 - 10) 。 一 般 至 少 需要 选择 UniSTS , Gene 两 个 选项 。 下 方 
页 面 大 小 (Page Length ) 的 缺损 值 为 20 条 ,可 根据 需要 改变 ,要 求 能 显示 所 有 的 条 目 。 各 参 
数 选择 完毕 后 , 按 Apply, 则 显示 所 需要 的 图 谱 。 显示 的 基因 图 中 ,包括 所 有 已 知 和 预测 的 
基因 ,通过 相关 链接 点 ,可 查看 每 个 基因 条 目的 相关 信息 和 序列 (参见 图 3 -11 ) 。 按 前 面 所 
述 方法 逐步 筛选 候选 基因 。 
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3-10 jii NCBI 查找 图 3 -3 中 sdy 基因 关键 区 内 的 候选 基因 ( 关于 图 谱 的 选项 ) 


3.6.5 同系 基因 和 同 源 基因 检索 

对 于 同系 基因 或 同 源 基因 的 检索 ,简便 的 方法 是 利用 UCSC 的 BLAT search 检索 工具 。 
将 已 知 基因 名 称 或 序列 按 3.6.2 节 和 3.6.3 节 所 述 进入 BLAT 查找 框 。 对 于 同系 基因 选择 
与 检索 基因 相同 的 基因 组 ,检索 所 得 结果 ,车 有 同系 基因 存在 , 则 根据 相同 程度 由 高 到 低 排 
列 ,点 击 相关 链接 点 ,可 知 该 同系 基因 的 定位 资料 和 序列 比 对 情况 。 如 为 同 源 基 因 查 找 , 则 
选择 与 所 查找 基因 不 同 的 基因 组 ,输入 相应 序列 ,进行 BLAT search, 可 得 到 同 源 基 因 的 定位 
资料 和 序列 比 对 情况 。 如 需 同时 查找 多 个 不 同 基因 组 的 同 源 基因 ， 则 建议 用 NCBI 的 
BLAST search 工具 进行 检索 。 最 近 NCBI 增加 了 HomoloGene 的 检索 功能 ,可 输入 基因 名 称 ， 
直接 查找 其 同 源 基 因 。 

因 限于 篇 幅 ,未 能 将 上 述 各 步 检索 结果 的 插图 全 部 附 上 ,建议 读者 在 阅读 本 节 时 ， 先 将 
这 三 大 数据 库 网 址 同时 打开 ,根据 各 自 的 工作 领域 , 设 定 所 需 分 析 的 基因 ,对 照 检索 ,便于 理 
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3-11 根据 图 3 - 10 选项 所 得 到 的 遗传 图 、 分 子 标记 物理 图 及 关键 区 内 的 候选 基因 


解 和 掌握 。 前 面 已 经 提 到 ,基因 组 的 分 析 是 每 位 生物 信息 学 工作 者 的 必 备 知识 ,希望 读者 在 
以 上 所 述 方法 的 基础 上 ,反复 练习 ,灵活 自如 地 应 用 。 在 掌握 基因 组 分 析 方 法 的 基础 上 , 进 
一 步 参考 本 书 第 5 .6 章 内 容 , 进 行 有 关 DNA 或 蛋白 质 序列 或 结构 的 分 析 ( 备注 :有 关 基 因 组 
医学 中 的 常用 术语 参见 http ://www. genome. gov/ glossary. cfm) 。 
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第 4 章 生物 信息 学 常用 数据 库 介 


生物 信息 学 最 初 的 定义 是 建立 数据 库 , 用 于 情 存 和 分 析 生 物 学 相 
关 的 信息 。 尽 管 近 年 来 生物 信息 学 的 发 展 如 此 迅猛 , 赋 邓 了 生物 信息 
学 更 丰富 的 含义 ,但 数据 库 仍 是 生物 信息 学 的 最 基本 的 内 容 , 也 成 为 牛 
物 信 息 学 的 重要 分 支 一 一 数据 库 生 物 信息 学 ( database bioinformatics) 。 
生物 信息 学 中 涉及 的 分 子 生物 学 数据 库 类 型 很 多 ,常用 的 包括 序列 数 
据 库 .定位 数据 库 .医学 信息 数据 库 .基因 组 数据 库 .结构 数据 库 等 ,其 
中 基因 组 数据 库 及 其 应 用 在 第 3 章 已 作 介绍 ,结构 数据 库 将 在 第 6 章 
必 详 细 介 绍 。 有 关 数 据 上 度 结 攀 和 管理 系统 的 基本 概念 属于 计算 机 科学 
的 基础 内 容 , 这 里 不 展开 讨 沦 。 


4.1 分 子 生 物 学 数据 库 


4.1.1 分 字 生 物 学 数据 库 发 展 简 史 

分 子 生物 学 数据 库存 现代 生命 科学 中 起 着 非常 重要 的 作用 。 作 为 
生物 信息 学 和 基因 组 学 中 的 关键 内 容 , 这 些 数 据 库 主 要 解决 DNA 利 蛋 
白质 序列 分 析 .动能 基因 组 学 .蛋白 弓 学 和 生物 大 分 子 结 构 分 析 中 的 核 
心 问题 ,从 而 为 数据 蚀 存 .查找 和 分 发 提供 有 效 的 途径 。 

最 早 的 生物 数据 库 是 有 关 生 物种 凌 利 性 状 方面 ,而 不 是 我 们 现在 
所 想到 的 有 关 序 列 方 面 。 物 理性 状 的 遗传 首先 取决 于 其 物理 定位 , 然 
后 是 基因 产物 的 存在 ,最 终 是 由 其 序列 中 的 遗传 信息 所 决定 。 首 个 分 
子 生 物 学 数据 库 是 恒 摇 质数 据 库 ,其 动因 小 自 Fred Sanger 等 于 1955 
年 对 胰岛 素 一 级 结构 的 测定 。 此 后 Sanger lg Jr PEAK YR HET GR H 
质 生物 化 学 研究 ,并 得 以 对 数 以 千 计 的 蛋白 质 序列 进行 测定 ,用 于 和 阐明 
许多 结构 蛋白 和 代谢 途径 中 的 酶 类 特性 ,以 及 分 子 进 化 分 析 等 。 

早 在 0 世纪 60 年代 初期 ,Margaret Dayhoff 就 提出 这 样 一 个 设想 ， 
即将 文献 中 所 有 的 蛋白 质 序列 汇总 在 一 起 ,可 能 是 研究 中 非常 有 用 的 ` 


TR. 于 是 她 和 同事 道 收 集 所 有 已 知 的 序列 并 在 一 起 发 表 , 称 之 为 “重启 质 序 列 及 结构 
图 谱 ”… -随后 ,每 当 新 出现 一 种 蛋 帕 质 序列 , 即 与 该 图 谱 比 对 .以 找 出 与 其 他 蛋白 质 的 关 
系 ,这 就 使 得 一 些 不 同 重申 质 之 间 序 列 相似 区 域 被 鉴定 出来 。Dayphet рафа rH Ж A 25 
察 族 的 概念 : 即 许 多 共有 不 同 酶 活性 的 蛋白 质 之 问 相互 关 联 日 来 白 于 共同 祖先 。 随 着 该 图 
谱 中 序列 的 不 断 增多 以 及 计算 机 的 半 现 ,数据 库 并 始 变 成 数学 化 文件 , 江 训 通过 调制 调解 大 
( modem) 以 300 省 特 的 速率 传送 【1980 年 )。 到 了 1983 年 ,美国 NIH 资助 建立 了 该 岗 谱 的 
连续 版 , 称 之 为 重 日 质 信息 资源 库 (prorein information resource, PIR), ЖЕЛТ, ПИА Ke 
与 欧洲 分 子 生 物 学 实验 室 (EMBL) 合作 建立 了 著名 的 SWISS -PROT 数据 库 , 该 数据 库 包 
Җ PIR 的 所 有 信息 ,同时 含有 让 育 的 注释 , 开 可 链接 到 其 他 数据 库 。 近 年 来 SWISS -PROT 
数据 库 己 成 为 从 白质 数据 库 的 标准 。 

接 下 来 的 序列 信息 大 爆炸 时 代 的 到 来 始 于 了 MBL 的 DNA 序列 数据 岸 及 随后 于 1982 年 
建立 的 GenBank. GenBank 最 初 是 由 美国 Los Alamos Es] sy 3E du Br Hy. 1988 年 ,美国 组 
建 了 国家 生物 技术 信息 中 心 { National Center for Biotechnology Information , NCBI) ,并 正式 接 
*f | GenBank, 在 20 世纪 80 年 代 早期 ,只有 儿 个 主要 的 数据 库 ,1982 SET СР GenBank 中 
的 序列 也 仅 有 606 条 共 680 338 个 核 音 酸 序 列 。 当 时 没有 人 会 预料 到 数据 库 会 像 今 天 这 样 
如 此 席 大 。 那 时 的 数据 库 主要 靠 用 户 自己 管理 ,而 涉 蚌 集中 管理 ,数据 库 中 的 信息 由 存放 者 
自己 修改 序列 的 注释 也 全 由 提交 者 负责 ,更 新 速度 慢 , 且 出 现 许多 宛 余 序列 。1988 年 后 ， 
GenBank 中 的 数据 时 指数 级 增长 。 到 了 2003 年 2 H , GenBank 中 已 经 有 超过 2 200 万 条 序 
列 ,包含 280 亿 个 核 芋 酸 这些 序列 每 昌都 在 更 新 ,并 每 两 个 月 通过 nemne 完全 发 布 出 来 。 

分 了 生物 学 数据 库 的 第 三 次 浪 漠 的 到 来 起 源 于 各 类 物种 的 基因 组 数据 库 。 扬 1995 年 
两 种 细菌 ( 流感 哮 徊 杆菌 和 解 腺 支原体 ) 的 基因 组 全 序列 被 破译 以 来 ” ,迄今 已 报道 400 多 
种 基因 组 序列 。 基 因 组 数据 库 的 建立 是 为 了 满足 各 种 不 同 的 数据 储存 帘 要 如 过 传 图 .物理 
图 . 核 苷 酸 和 氨基 酸 序列 等 (参见 第 T. 这些 数据 库 代 表 涉 同 分 状 率 的 基因 组 结构 和 不 
同 层面 的 基因 纽 巧 能 ,是 根据 生物 学 分 类 而 排列 , 而 不 是 接 书 目 编 排 体 例 。 


4.1.2 分 子 生 物 学 数据 库 分 类 

分 子 生 物 学 数据 库 中 的 信息 可 以 是 DNA 序列 ,保守 的 DNA 结构 域 .基因 组 .基因 表达 、 
ENET EGEA. HART .基因 多 态 性 和 代谢 途径 。 且 前 已 有 许多 数据 库 , 通 过 
Internet 在 搜索 引擎 可 查 到 数 百 个 数据 库 。 一 般 而 言 , 分 子 生物 学 数据 库 的 分 类 依照 数据 类 
型 ,物种 类 型 .数据 来 源 、 进 入 便利 性 数据 录入 方式 和 侧重 点 等 。 

最 先 使 用 也 是 最 流行 的 数据 库 是 基于 数据 类 型 如 DNA КМА EST、 和 蛋白 质 而 建立 的 。 
HH, NCBI 中 的 UniGene 数据 库 ! http://www. ncbi. nlm. nih. gov/UniGene) 是 一 种 DNA JF 
列 数据 库 。 该 数据 库 是 基于 实验 数据 从 GenBank 中 自动 分 出 来 的 -种 根据 基因 类 别 而 建 
立 的 非 元 余 性 数据 库 。 每 个 UniGene 条 目 人 代表. 种 独特 的 基 央 序列 及 其 相关 信息 ,如 组 织 
表达 类 型 和 基因 定位 等 。 除 了 已 明确 的 基因 外 ,该 数据 库 还 包括 成 十 上 万 的 新 EST ex- 
pressed sequence tag) 序 列 。UniGene 提供 了 转录 组 水 平 的 白 动 分 析 系 统 , 角 决 了 困扰 许 多 
研究 者 的 转录 序列 中 的 宛 余 (redundancy ) 现象 ,以 及 常见 的 实验 差错 问题 。 因 此 , UniGene 
可 作为 新 基 凡 发 现 或 其 他 大 规模 研究 计划 如 基因 年 位 ,基因 表达 ,全 长 cDNA 研究 项 目的 重 
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要 资源 。 另 外 ,无 数 基因 克隆 的 研究 项 目 也 从 该 数据 库 中 受益 非 浅 。 

数据 库 的 第 二 种 分 类 方法 是 根据 物种 类 型 。 近 年 来 物种 数据 库 显著 增加 用 于 储存 该 基 
因 组 外 有 有 关 结 构 和 功能 基因 组 信息 。- - 些 主要 的 物种 数据 库 如 人 类 基因 组 的 СОВ ( http Z7 
gdbwww, gdb. отри у 和 NCBI ( http; // www. ncbi. nim. nih. gov/genome/seq/) 数据库, 果 蝇 的 
ВОСР( http://www. fruitfly. org/ ) Жі FlyBase ( http :/7flybase. harvard. edu; 7081/) ЖЕЕ V. , E 
БЕЙ] SGD( hup :Z/ www. yeastgenome. org” ) HI CYPD( http :/7 mips. gsf. de/genre/proj/ yeust/in- 
dex. jsp) 08 Fe ,线虫 的 Wormbase #98 BE (http://www. wormbase. org/) ,大 肠 杆 菌 数 据 库 


org/ ) 等 。 

所 有 这 些 物种 数据 库 包 含 各 种 不 同 的 相应 物种 的 信息 ,其 数据 库 内 容 可 有 不 同 来 源 。 
例如 ,TAIR 数据 库 , 其 前 身 为 氢 南 共 数据库 ( AtDB)'”, 基 由 美国 自然 科学 基金 资助 的 合作 
Jj H ,收集 . 眉 正 机 发 布 有 关 拟 南 并 的 信息 。TAIR 提供 有 关 基 央 .分 子 标 i 记 、 多 态 性 .图谱 、 
序列 ,克隆 .DNA 利 库存 种 子 ,基因 和 和 蛋白 家 族 等 多 种 信息 。 此 外 ,用 户 还 能 在 该 数据 库 中 
找到 拟 珊 井 研 究 人 员 所 发 表 的 相关 论文 。 日 前 ,该 数据 库 已 有 40 DARTE 20 万 个 
突变 株 .4 千 信 分子 标记 ,9 万 个 多 态 位 点 .600 多 个 微 阵列 实验 结果 ,以及 多 达 1 ACD 
Ayxi, A TAIR 公布 以 来 (http://arabidopsis. org/usage/ monthly/2002/05/01/in- 
dex. html) ,其 月 访问 用 户 量 由 1999 年 11 月 的 1 万 3 和 干 人 次 ,到 2003 年 7 月 已 增加 到 约 5 
л 3+ ARX, 
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数据 库 。 原 始 数 据 库 一 般 只 存储 递交 省 寄 送 的 序列 ,例如 GenBank ЖП РОВ %, АТЗ 
是 根据 原始 数据 库 编 译 得 到 的 。 数 据 库 中 的 资料 或 者 经 过 人 十 校 对 (euration) .或 者 运行 释 
序 魏 动 编辑 。 人 校对 的 数据 通常 质量 很 高 但 耗费 较 高 . 且 更 新 较 慢 , 如 NCBI 中 的 Ref- 
Seq. 而 白 动 产生 的 数据 库 硫 费 低 、 更 新 快 , 俱 与 人 本 方法 相 比 ,质量 较 差 , 如 COGs 和 TrEM- 
BL, TrEMBL 是 对 SWISS - PROT 数据 库 的 补充 ,以 解决 该 数据 库 在 基因 组 计划 中 输 人 到 序 
列 数据 库 时 ,和 人工 编辑 所 面临 的 耗 时 长 .工作 量 天 的 问题 。 维持 SWISS - PROT 数据 库 的 高 
质量 是 必要 的 ,同时 尽快 更 新 序列 也 很 重要 “。TrEMBL 产生 本 1996 年 ,根据 DNA 序列 利 
用 计算 机 注释 各 条 目 . 这 些 条 目 来 白 核 背 酸 数据 库 中 的 编码 序列 (coding sequence, CDS) 
利文 献 小 的 蛋白 质 序列 ,以 及 用 户 直 接 递 变 的 重 白 质 序 列 ,但 不 包括 SWISS - PROT 中 已 经 
存在 的 编码 序列 。TrEMBL 对 EMBL 中 的 核 井 酸 序 列 每 周 更 新 一 次 。24.6 版 本 的 TrEMBL 
包含 94 万 个 条 上 是, 含 291 兆 的 氮 基 酸 。 数 据 库 依据 功能 或 种 系 发 生 进 行 分 割 ,如 病 窒 、 灵 长 
类 或 细 苘 数据 库 ,可 看 做 卫生 数据 库 。 

数据 库 的 侧重 点 (focus) 是 分 类 的 另 一 标准 。 不 管 是 原始 数据 库 ,衍生 数据 库 还 是 物种 
数据 库 ,每 个 数据 库 都 有 上 其 侧重 点 , 秽 如 说 列 数据 库 .图 详 数 据 库 .基因 表达 数据 库 利 医学 信 
息 数 据 库 等 。 如 前 所 述 ,序列 数据 库 主 要 用 来 存放 DNA 或 蛋白 后 的 序列 信息 。 大 型 序列 数 
据 库 包括 NCBI 的 GenBank, EBI 的 MBL. 日 本 的 DDBJ J A К SWISS - PROT, RIR 
数据 库 包 括 定 位 ,排列 次 序 .分子 标记 之 间 的 距离 .克隆 红 集 (eontig) . 探 针 .物理 图 等 信息 。 
基因 表达 数据 库 恕 NCBI 的 GEO( hup;Z/ www. nobi. nim. nih. gov/geo/) ,收集 基因 表达 和 微 
阵列 杂交 数据 并 经 过 校对 ,可 提供 在 线 基 因 表 达 肿 瘤 浏览 .查询 和 检索 的 有 关 资 源 。 医 学 信 
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Rc Fr We ЖОЙ Fe HE Pg Ле ЖИ OS ЖЫГА Se ЛЕ) fs PA, ШШ OMIM (http:ZZwww. nebi. nim. nih. 
gov/omim/) 。 该 数据 库 是 由 John Hopkins 大 学 Victor A MeKusick 及 其 同事 等 编辑 的 一 种 人 
类 基 内 种 遗传 病 上 是 录 。 以 下 将 详细 讨论 一 些 常 见 序列 数据 库 .图 谱 数 据 库 和 医学 数据 库 的 
建 库 历 由 ,数据 结构 的 分 布 ,数据 递交 方式 和 查找 方法 等 . 


4.2 序列 数据 库 


4.2.1 核 音 酸 序列 数据 库 

ТТЕ АЕС BE (mucleotide sequence database) 是 最 常山 的 一 类 序列 数据 库 , 已 有 3 £ 
种 。 一些 数 据 库 如 EMBL( http://www, ebi. ас. uk/embl/) 和 GenBank (http://www. ncbi. nlm. 
nih. gov/Genbank/Genbank Search. html) 含有 各 种 物种 的 DNA 序列 。 另 一 些 数据 库 提 殿 DNA 
的 三 维 结构 ,如 NDB ( http /"/ ndbserver. rutgers. edu”) ,该 数据 库 收 集 有 关 核 酸 的 结构 信息 。 还 
Н ВЕКУ ЦЕ SE Е DNA 或 КМА 序列 信息 ,如 RDF (http://rdp. сше. msu. edu/hi- 
ml) ‚Жк PESE BUBORSS Ber 26 En ROS EA, ЗЕ ТЕ £R VORLA ET RNA (^E BIETER .rRNA 
序列 出 对 和 分 析 。PIACE (http://www. dna. айке. go. jp/htdocs/PLACE/) 是 一 种 储存 植物 
顺 式 作用 调节 性 DNA 元件 的 数据 库 。  . 些 数 据 库 收集 有 头 分子 或 赛 核 苷 酸 探 针 , 如 MPDB 
( http://www. biotech. ist. unige, it/interlab/mpdb. html) ; 并 收集 分 子 生物 学 中 常用 的 2 600 
多 种 载体 DNA 序列 ,如 vectorDB ( hup ;//life. nthu. edu. tw/ ~ g854202/Vecdtb. html) 。 

BUE yc Ego tF Re CHR PE rh, EMBL. DDJB 和 GenBank 是 国际 性 核 苷 酸 数据 库 的 主 于 。 
这 三 大 数据 库 之 间 每 天 都 相互 交换 信息 。 用 户 只 归 向 其 中 之 一 递交 序列 ,上 且 不 管 这 些 序列 
是 否 将 被 发 表 ， 这 三 大 数据 库 依 照相 同 的 文献 指南 [The DDBIAEMBL/GenBank Feature Ta- 
ble Definition) 米 规 范 数据 库 条 上 县 的 内 容 和 人 句法。 该 指南 保证 用 同一 种 格式 进行 数据 库 之 间 
的 数据 共享 ,并 与 现行 的 生物 信息 学 软件 兼容 ,反映 分 子 牛 物 学 和 普通 生物 学 的 进展 情况 。 
e 5 HE, 3X 3 个 数据 库 共 包含 2 300 万 个 记录 ,其 中 GenBank у 71% , DDBJ 占 19.6%, 
EMBL 5 9. 496 ,, 

4.2.1.1 EMBL ЖЖ AE dC 3E E 

EMBL TE CN ОЕ PE UE UR, A HET. 1980 年 ,将 各 个 公共 来 源 的 核 昔 酸 序 
列 进行 整合 .整理 和 分 类 。 该 数据 库 由 位 于 英国 剑桥 附近 的 欧洲 生物 信息 学 研究 所 ( Euro- 
pean Bioinformatics Institute, ЕВІ) 维护 ,并 与 CenBank fij DDBJ 共同 协作 。EMBL 数据 库 已 
处 理 自 1982 年 以 来 全 世界 范围 内 所 公布 的 序列 。 基 因 组 计划 的 序列 .各 研究 人 员 直 接 递 交 
的 序列 以 及 由 欧 湖 专利 事务 所 发 送 的 专利 序列 是 该 数据 库 的 序列 增加 的 主要 来 源 。EMBL 
数据 库 储 存 和 维护 是 用 ORACLE 数据 管理 系统 ,可 通过 序列 检索 系统 (SRS) .通过 互联 网 进 
行 查找 “|。 

EMBL 数据 库 包括 两 个 主要 部 分 。 第 一 部 分 是 发 行 区 (release section) ( EMBLREL) ,每 
隧 3 个 月 对 外 发 行 - -次 。 第 二 部 分 是 序列 每 口 增添 新 区 {new section) ( EMBLNEW) 。 最 新 
的 75 RATIA 25 214 767 个 序列 条 目 ,包括 32 195 012 823 ARAMEA., EMBL 被 划分 
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23 19 AP £8 ( division) ,分 别 反 映 不 同 的 用 户 感 兴趣 的 数据 子 集 。 这 些 组 的 区 分 原则 是 根据 
分 类 学 (taxonomy) (如 HUM 代表 人 类 ,PLN 代表 植物 ,PRO 代表 原核 生物 等 )。 一些 例外 的 
是 HTG( high throughput genome sequences) , GSS( genome survey sequences) 和 EST( expressed 
sequence tags) 等 ,是 根据 某 些 资料 特性 进行 分 奖 。 

EMBL 数据 库 的 结构 是 按 Hatfle( 平 面 文件 ) 格 式 进行 布局 的 ,该 格式 可 被 许多 序列 分 
析 软 件 所 支持 ,其 数据 库 结 构 方 式 适合 读者 使 用 , 见 附 录 4 一 1。 EMBL 的 flatfile 格式 包括 一 
系列 严格 控制 的 行 娄 型 和 四 大 主要 数据 区 (bleck) 。 第 一 个 区 包括 描述 种 标识 符 , 如 条 日 名 
BR ,保密 状况 .分 子 类 型 .分 类 .序列 总 长 度 ( 和 DPD 行 ) 等 基本 描述 内 容 ;标识 符 有 登 让 号码 
(АС) .序列 版 本 (SY) ,创建 和 更 新 日 期 (PT) .序列 简单 陈述 (CDF) Эс ај СКИ) .分 类 方法 
(08, OC) 以 及 相关 数据 库 的 条 目 (DR 等。 第 二 个 区 是 引文 区 ,包括 引文 详细 内 容 (RX， 
RA, RT 和 RL) ARBOREA IEA (КАПИК RUE ALCRL) 2 38 — XC HAMM TT 
#R RR, , LT FETU PAVREHE , ЕИН Ў E ЕЛЕ ,特征 性 定位 和 限定 词 千 - TEUER 
序列 资料 ,长度 和 碱 基 组 成 (S@) 。 

有 见 种 不 同 的 方法 向 了 MHRBL ARAS. Webin E: EMBL Ж Jn BR. Webin 通过 
-系列 交互 式 WWW tru PUNIRI I, Pa 日 期 个 息 .序列 资料 . 源 信 息 
描述 .参考 文献 信息 和 特征 信息 (如 编码 区 .调节 信号 等 )。 递 变 者 被 允许 在 成 为 EMBL 数 
据 库 最 终 出 版 格式 前 修改 和 查看 所 输入 数据 。Sequin ex -种 递交 格式 , 它 是 出 NCBI 建 
立 的 一 种 新 的 适合 多 平台 ( Mac/PC/AUniz} 使 用 的 软件 工具 , 它 不 限 TE] GenBank ,也 可 
4:354 EMBL 和 DDBJ, Sequin 程序 可 由 NCBI 网 站 直接 下 载 和 得 到 有 关 安 装 指南 ， 电 子 
邮件 是 第 三 种 递交 方式 。 递交 者 若 要 发 送 25 种 成 更 名 的 相关 序列 {如 不 同 物种 中 同一 基 
D FEAR) ,可 直接 通过 电子 邮件 将 序 剂 发 到 datlasubs 人 @ ebi. ас. uk, AF ЖЕК ВИА) 
研究 组 ,可 百 接 向 EBI 申请 专门 的 发 送 账 户 ,这 样 该 用 户 可 通过 FIP 或 电子 邮件 进行 传送 

数据 和 更 新 数据 。 

利用 FTE 服务 器 进行 数据 库 查询 和 数据 传输 是 进入 EMBL 数据 库 的 两 种 基本 方法 . 
简单 序列 查找 ( simple sequence search) 和 SRS 是 用 户 最 常用 的 检索 数据 库 的 二 具 。 简 单 序 
列 查找 可 根据 登记 号 码 检 索 到 50 个 条 目 ,而 SRS 可 使 用 户 检索 所 有 数据 库 信息 。 

4.2.1.2 GenBank 

GenBank 始 建 于 1988 F, E R— T 2 S ЖЕНУ ДАЛЕЕ A S P RTT: Уга БЕ, 31 D DE 
相关 的 文献 目录 和 生物 学 注释 。CenEBank 由 位 于 美国 NIH 属 下 国立 医学 图 书馆 的 NCBI 进 
FEP, GenBank 的 数据 来 源 主要 是 各 研究 人 员 独 自 弟 次 ,或 由 一 - 些 太 的 测序 中 心 成 批发 
送 。 这 些 成 批 数据 的 来 源 主要 为 进行 EST GSS 和 НТС 的 测序 中 心 ,也 包括 美国 专利 和 和 商 
标 事 务 所 (USPYO 1) 的 专利 序列 数据 ，GenBank 整合 发 送 到 EMBL 和 DDBJ ГЕЗ, Н xt 
行 交 换 , 以 保证 这 三 大 数据 库 对 全 部 序列 信息 的 维护 。 近 10 FK, GenBank 的 数据 呈 指 数 
С Ela -1)7。 例 如 ,以 2003 年 石 月 的 136 发 行 服 (release version) 为 例 ,GenBank 
包含 325 亿 个 核 背 酸 和 2 560 万 个 不 同 序列 ,代表 着 11.9 万 种 不 同 的 物种 。 

GenBank 数据 库 结 构 分 布 方式 是 按 传 统 方法 分 成 不 同 的 区 组 { 日 前 已 有 18 个 ) LX GE 
分 类 学 进行 区 分 ,如 细菌 (BCT) .病毒 (YIR) R KÆ (PRI) Al ESS(ROD) 。 最 近 , 这 种 分 
组 方法 为 满足 特殊 项 目的 需要 ,设立 了 EST.GSS 和 НТС 等 组 别 。 
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图 4-1 GenBank 数据 库 的 增长 曲线 
资料 来 源 :http // ууу. ncbi. nlm. nih. gov/ 


GenBank 的 flatfile( СВЕ) 是 GenBank 数据 库 的 基本 单位 。 如 附录 4 -2 所 示 ,GBF 可 分 
为 3 个 区 :标题 (header) 特征 (feature) 和 序列 ( sequence) 。 标题 区 含有 整个 记录 的 描述 信 
息 。 标 题 区 的 首 行 以 LOCUS 打头 ,包括 其 他 成 分 , 如 登记 号 ( accession. number ) ( 如 
AF040078) .序列 长 度 (如 1.932 bp) .分 子 类 型 (如 mRNA) .GenBank 部 门 (如 PLN) ,以 及 发 
布 日 期 (如 16 -JAN 21998) 。GenBank 记录 的 定义 行 是 用 来 概括 该 记录 。 该 定义 行 出 现 于 
FASTA 格式 和 BLAST 检索 结果 中 。 第 三 行 是 登记 号 码 (如 AF040078) ,该 号 码 是 专 一 的 ,用 
来 代表 该 记录 和 数据 库 的 主要 参考 代码 。 版 本 行 由 一 系列 标识 符 组 成 ,包括 登记 号 码 和 数 
据 库 中 当前 版 本 的 版 本 号 ,接着 是 由 NCBI 指定 每 个 序列 的 GI 号 码 。 关 键 词 行 是 由 一 序列 
短语 组 成 ,概述 基因 产物 和 该 记录 的 其 他 相关 信息 。 标题 区 的 其 他 行 含 有 序列 来 源 的 物种 
名 称 或 文献 中 的 常用 名 称 、 作 者 .述评 和 备注 等 。 特征 区 是 表示 该 记录 有 关 生 物 学 信息 的 重 
要 内 容 , 如 所 编码 的 蛋白 质 或 RNA 分 子 的 重要 信息 。 最 后 的 区 是 碱 基 的 总 数 和 各 种 碱 基 的 
数目 以 及 首 个 碱 基 在 基因 组 中 的 定位 等 信息 。 

事实 上 ,所 有 进入 GenBank 的 记录 都 是 依靠 直接 递交 进去 ,多 数 作者 选用 Sequin 或 
Bankit, Sequin 的 方法 在 上 面 EMBL 一 节 中 已 提 及 。Bankit 占 单个 递交 的 65% 以 上 。 使 用 
Bankit 时 ,作者 根据 表格 内 容 逐 项 填写 和 修改 并 进行 加 注 ,特别 适合 单个 或 少量 未 完全 注释 
好 的 递交 ,而 且 是 WWW 上 使 用 的 工具 ,不 需要 使 用 序列 分 析 工 具 。 

有 3 种 常用 的 方法 对 GenBank ЖОЕ К: Entrez"! .BLAST 序列 相似 性 查找 和 FTP 
文件 交换 形式 。Entrez 和 BLAST 的 检索 方法 见 4.5 3, GenBank 数据 库 中 的 资料 也 可 通过 
FTP 方式 从 NCBI Л 3 AF ( ftp://ncbi. nlm. nih. gov) 上 直接 获得 相关 的 flatfile 格式 。 通 过 
FTP 既 可 得 到 全 发 行 版 形式 (在 “genbank ° 目录 下 的 压缩 文件 ) , 也 可 得 到 每 日 更 新 的 文件 
(累积 性 更 新 文件 在 "daily " 子 目录 下 , 非 累 积 性 更 新 文件 在 : daily -nc 值 目录 下 )。 对 应 于 
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BLAST 查找 结果 的 数据 集 ,要 想 获得 只 含 序列 的 FaASTA КАНЕ 2: КЕ FB ATU А И ИР 
列 ате“ BLAST db’ S Ebo PF OKB. 
4.2.1.3 DDBJ 


DDBJ 代表 的 是 日 本 DNA Xp ЕЗШЕ GE FEET ARGUS 106 BEST MET НЬ T SE 
大 员 递交 的 数据 。 该 数据 库 1986 EJP T [E HI, ИП H Ж ЖБ Ж E 10 JM E УЗА PRESE НТ 
(МС) zr, A) 2003 年 6 月 所 发 行 的 DDJB 28 54 版 中 ,DDBJ 已 收集 条 目 超 过 2 500 万 条 ， 
所 含 序 列 超 过 320 f£ T etta ‚НЕ ЕВИНИН ER PURA, ‚ЛА, КБш, Жа, Ж 
ЮЖ CK O8 PE Jr LZ Pro 

DDBJ 文件 分 布 与 GenBank 相似 ,划分 为 不 同 区 组 (division) , £j 9515 ЕЗ“ А.Ж” Box 
长 类 单列 出 来 。DDBJ 的 基本 信息 单位 采用 GenBank 的 flatfile 格式 。 有 3 种 不 同 的 递交 数 
据 方法 :第 一 种 是 通过 WWW 服务 器 利用 Sakura 递交 ;第 一 种 是 通过 下 - mail 利用 MSS 
( mass submission systems) 发 送 太 量 数据 ;第 三 种 方法 是 按 前 面 所 述 的 Sequin 方法 。 

进入 DDBJ 的 方法 有 几 种 ,Getentry” 是 最 常用 的 检索 软件 ,可 让 用 户 接 登 记号 码 ,位 点 
名 称 .基因 名 称 .产物 和 名称、 蛋白 质 序号 ,克隆 名 称 和 版 本 号 等 查找 。 其 他 方法 可 采用 关键 词 
的 SRS 检索 法 ,表达 序列 的 "59 match” 检索 法 . 同 源 序列 的 FASTA 和 BLAST 查找 法 ,以 及 
根据 数据 库 分 类 的 “TX Search" 法 等 。 


4.2.2 和 蛋白质 序 列 数据 库 

一 白质 序列 数 里 库 ( protein sequence database) ШЧ НЧЕ ЕН 3c Use 3k £8.19 A ЛЕ ч Ж ШЕ 
酸 序 列 , 介 目前 记 舍 的 序列 大 部 分 是 杭 据 DNA 序列 获得 的 ORF ЖЖ: A LEID. ЕЖЕ 
由 质 序列 数据 库 有 :经 多重 比 对 获得 的 无 空位 的 恒 外 质 高 度 保守 区 的 短 序 列 数据 库 
BLOCKS( http://www. blocks. fherc. org}, G — EARE b ЖОЕ ЛЕ GCRDB ( http: //тесер- 
tor. mgh. harvard. edu/GCRDBHOME. html) ,高 质量 校 阅 过 的 蛋白 由 村 作用 数据 库 MIPS ( ht- 
tp://www. mips. biochem. mpg. де), 氨基 酸 罕 变数 据 库 PMD (hüp://pmd. ddbj. nig. ac. 
jp o HUE EI Ff aA Р te SE ET ЖЕЙК PE PRINTS. ( http: // bioinf. man. ac. uk/db- 
browsez/ PRINTS/) ,进行 功能 性 注释 的 化 白质 序列 数据 库 PIR — PSD (http; pir. george- 
town. edu/piz/) ,以 及 高 水 平 注释 和 校 阅 的 蛋白 质 序列 数据 库 SWISS - PROT/TrEMBL. (C bt- 
ip ://us. expasy, org/sprot/) 。 其 中 以 PIR - PSD 数据 库 和 SWISS - PROT 数据 库 最 常用 。 

4.2.2.1 SWISS - PROT 和 TrEMBL 

SWISS - PROT 是 .一 种 经 校 阅 过 的 蛋白 质 序 列 数据 库 , 首 先 于 1978 #ЕЕ ЕН РН K 
医学 生化 系 建立 ,随后 与 欧洲 分 子 生 物 学 实验 室 (EMBL) 合作 ,日 前 由 EMBL 和 新 成 立 的 瑞 才 : 
生物 信息 学 研究 所 (SIB) 共 同 维护 。2003 年 8 月 ,SWISS -PROT 的 41.21 发 行 版 中 ,含有 从 超 
过 10 万 条 参考 文献 由 得 到 的 133 312 ФАН. 4-2 显示 该 数据 库 的 增长 情况 。 

SWISS -PROT 数据 岩 的 重要 特征 是 其 高 水 平 的 注解 .很 低 的 元 余 序 列 以 及 与 其 他 数据 
库 的 高 度 整合 。SWISS - PROT 的 条 目 通常 分 为 两 类 ({ 见 附录 4 -3) :核心 数据 和 注释 。 每 
个 序列 条 目 中 的 核心 资料 包括 序列 资料 .参考 文献 .分 类 资料 (描述 看 白质 的 生物 米 源 )。 
注释 资料 则 包括 下 列 几 项 ;名 蛋 白质 功能 ;名 恶 泽 后 修饰 ,如 糖 其 化 和 碰 酸 化 ;他 结构 域 和 结 
合 部 位 ,如 ATP 结合 部 位 ; 馆 次 级 结构 ,如 о — LE 8 - Hr OOV AR EI Ln ИНЖЕ Ж 


ne К 


Y 


—n £4 8 2 56 


Number of entries 
20000 40000 60000 80000 100000120000 140000 


FIO E: А 
© 
一 一 mv 一 Re с ¿mq — A n 
< СОГ 35 aoc 了 SEE 一 — T 6 neo Cc © сос c 4 
9С 0090000090 © 00 Соса ТОСО тоо ое дссс O 2 2 е 
© > 全 了 Seooooce 2OOOO2 2000200 2 = E 个 > z o = = 
паем Б FSS- ©ту олаш "mz A O C оф c е 
Socos o es ОСАДА о $5589 = 


Swiss-Prot Releaae (year) 


4-2 SWISS - PROT 数据 增长 曲线 
资料 来 源 :http ;//us. expasy. Org/ sprot/sprot — top. html 


体 ;@ 与 其 他 蛋白 的 相似 性 ;@) 蛋 白 缺 乏 相关 的 疾病 ;@) 序 列 冲突 或 变异 性 。 这 些 注释 主要 
见于 注解 栏 (CC) ,特征 表 ( FT) 和 关键 词 行 (KW) 。 许 多 注解 被 分 类 为 “主题 (topic)”。 条 
目 中 的 每 一 行 由 2 个 字符 代码 组 成 ,其 代表 的 意义 见 表 4 -1。 


表 4-1 SWISS -PROT 数据 库 中 的 行 代码 


AC 登记 号 码 RX 参考 文献 相互 参照 
DT 日 期 RA 参考 文献 作者 
DE 描述 RT 参考 文献 题目 
GN 基因 名 称 RL 参考 文献 位 置 
05 物种 名 称 CC 注解 或 备注 

0G 细胞 器 DR 数据 库 相 互 参照 
ос 物种 分 类 KW 关键 词 

OX 分 类 学 相互 参照 FT 特征 表 数据 

RN 参考 文献 号 SQ 序列 标题 

RP 参考 文献 位 置 (空白 ) 序列 数据 


参考 文献 注解 结束 行 


Жаз нра а О T — 


为 了 加 快 处 理 基 因 组 计划 所 带 纵 SWISS - PROT 的 大 量 数 据 以 及 保证 该 数据 库 的 高 质 
量 标准 ,已 于 1995 年 建立 了 . -个 TEMBLItiranslation from EMBL) 数据 库 ，TrEMBT. 中 的 条 
H 5j SWISS — PROT АНА, РЖ А EMBL 核 苷 酸 数据 库 编码 区 的 翻译 序列 ,但 不 
包括 SWISS -PROT 中 已 收录 的 序列 。2003 年 8 月 15 日 分 布 的 TrEMBL 54709 24.8 , & 
939 599 个 条 日 ,其 容量 也 在 不 断 增加 ,新 条 目 主要 来 自 EMBL 基因 组 计划 的 数据 НТ 
Bg ,如 果 经 人 人 工 注 释 , 则 该 条 目 从 TrEMBL pA SWISS -PROT (图 4-3)。 


Sequin & Banklt 


аза | 3 B 3c 39 АЕ D Bn PF $!) H sh eit 


| 手工 校 阅 /注释 


PIB-PSI 


4-3 ЖАЛБЕ EREA 


ОҢ SO ls ЗЕ HI Ft 5 ЈС ma Н SWISS -PROT 或 TEMBEL 数据 库 的 方法 是 使 
用 ExPASy 网 络 服务 器 (http:7ywww. expasy. org), X HE A5 di e De Ж K 3 Л ТЕ, Н: 
(DEA, SWISS – PROT 或 TrEMBL 中 出 现 的 任何 文本 ;@@ 通 过 描述 基因 名 称 和 物种 .作者 、 引 
普 , 以 玉 志 4 一 【中 的 代码 行 中 的 交 本 进行 高 级 检索 ;由 通过 SRS 软件 进入 数据 库 进 行 查 询 
利 检索 所 机 序列 和 茶 目 。 

4.2.2.2 РІВ - PSD 

PIR - PSD 是 由 PIR ££; B] ТАЕ НЕЕ ЕАО ЕВРЕ А ЛЕ БЕЛЕКЕ 
定 和 注释 。 它 是 由 最 初 的 NBRF 蛋白质 序列 数据 库 六 经 过 20 多 年 的 发 展 而 由 Margaret 
О. Dayhoff 4E 7g Е E ДЕ ДЕ ЕА R| BS” (atlas of protein sequence and structure ) 21р. 
НЕ РІК ~ PSD 由 NBRF Munich EARE Ya rB € MIPS) fll Н < [BI BF 88 E fc fei PL S s 
BE(JIPID) МЕ, OEC Ж de R28 РЗ RES .来源 .参考 文献 和 特征 信息 等 。PIR - PSD 
是 一 种 综合 性 的 . 非 元 余 的 ,组织 得 非常 好 叉 免 费 为 用 户 使 用 的 数据 库 , Reo T ЭНЕ 185 
基因 组 和 计算 生物 学 研究 的 有 力 支持 。 

РІК - PSD 数据 库 的 增长 速度 比 SWISS - PROT 还 要 快 ,但 每 个 条 上 日 只 作 较 低 水 平 的 注 
释 。 该 数据 库 由 四 部 分 组 成 :PIR, 为 完全 归 类 好 的 条 日 ;PIR, 为 已 柳 认 和 归 类 的 条 上 日 ;PIR， 
是 术 确 斌 条 目 ;PIR, 为 非 编码 或 非 翻 译 条 目 。2003 年 7 月 14 日 的 第 77. 02 发 行 版 中 ， 


PIR - PSD 包含 283 329 个 记录 ,涵盖 所 有 物种 。 数 据 库 是 属于 非 元 余 的 ,完全 相同 或 锅 度 
相似 的 序列 被 合并 到 同一 -条 日 。PIR ~ PSD 中 的 序列 分 类 根据 其 相似 忻 分 成 超 家 族 .家 族 各 
同 源 结构 域 。 其 记录 与 其 他 主要 的 分 子 生物 党 数据 库 相互 参照, 如 Medline , GenBank , EM- 
BL,DDBJ,PDB,HGDRB 等 。 

£j SWISS - PROT 一 样 ,PIR - PSD 是 以 其 专家 性 注释 而 出 名 ,，PIR 的 每 个 条 目的 注释 
内 容 包 括 许 冤 原 始 递 变 忆 录 中 并 不 具有 的 一 些 重要 特征 ,如 图 谱 位 置 的 遗 乱 信息 ,内 会 子 位 
置 . 起 始 密码 子 及 与 其 他 序列 .结构 .基因 组 和 引文 数据 库 的 相互 人 参照 等 这些 数据 库 包 括 
许多 公共 的 数据 库 , 如 Entrez, Medline, PDB , GDB , OMIM, FlyBase, MIPS,SCD 和 TIGR 等 。 
PIR - PSD 的 另 一 重要 特征 是 超 家 族 的 分 类 ,以 提供 全 面 . 非 交 及 性 FA REIS fes B. 3T F UE 
FAEH A. CAA ATRAPAR ATA. AHAA IL, PR - PSD 序列 的 
99% PJ |- E; Hj ЗАЯ ЭЕ З [8] RE 2 b 45% [К] БЕЗ EE „Ж 273 的 序列 被 归 
类 到 36 000 个 超 家 族 。 

进入 PIR - PSD 的 方法 有 儿 种 。 第 -- 种 方法 是 根据 文本 查找 记录 和 日 录 恰 索 ,该 检索 
方法 依照 独特 的 标识 符 ,登记 号 码 和 相互 参照 内 容 。 第 二 种 方法 二 BLAST 检索 ,通过 夺 列 
相似 福 检 索 数 据 亩 中 的 条 目 ,一 般 使 用 NCBI 的 空位 - BLAST 程序 显 术 最 高 的 200 个 匹配 
条 上 且 。 第 三 种 方法 是 ”PIR patem” 检索， 用 户 可 自 定 义 其 类 别 ,形成 一 个 分 子 表 达 尺 米 表 
示 一 组 相关 蛋 月 质 的 保守 区 ,如 [ELIVM] - ГМС] —x(2) -G - [DENQTA] -x – [GAC] - 
x(2) -[ LIVMFY ](4) -x(2) -G, 来 检索 数据 库 中 是 否 具 有 该 保守 区 序列 。PIR 的 无 记名 
FEP 35 5 ( ftp ;//nhrfa. georgetown, eduzpir_ databases) ПЕ ВЕ NBRF #1 CODATA 格式 的 flat - 
file 文件 转换 ,其 相应 序列 为 FASTAZXML 格式 或 其 相关 的 DTD 文件 格式 。 

PIR 也 提供 - -种 用 计算 机 自动 翻译 的 补充 数据 库 PATCHX , Зе) SWISS - PROT 和 
TrEMBL 的 关系 。 新 的 条 日 主要 是 那些 成 批 的 来 源 于 基 内 纽 测序 计划 的 数据 或 选择 性 的 
GenBank/EMBL ÆA, PIR 的 数据 更 新 流程 参见 加 4 一 3。 


4.3 基因 组 图 谱 数 据 库 


英 汪 遗传 定位 可 追 滴 到 上 世纪 初 。 Wilian Bateson 和 R. С. Pinne 观察 到 甜 晓 豆 的 基因 
连锁 卉 葛 。 他 们 研究 了 两 个 基因 :--… 种 是 花 的 颜色 , 另 一 种 是 慈 粉 晤 粒 的 形状 。 他 们 发 现 这 
两 个 基因 存在 物理 关联 性 ,但 不 知道 这 种 关联 的 性 质 。 其 后 ,著名 遗传 学 家 摩根 ( Morgan) 
通过 研究 果 蝇 的 两 个 常 染色 体 禁 因 证 实 了 了 Bateson 和 Punnet 的 假说 。 其 中 - -个 基因 决定 
眼睛 的 颜色 , 另 一 个 基因 决定 翅 长 ,F2 代 中 的 表 型 数目 严重 背离 了 协 德 尔 规律 所 预计 的 数 
且 。 因 此 ,摩根 指出 ,决定 这 两 个 性 状 的 基因 位 于 同一 对 和 同 源 染色 体 上 ,并 提出 了 著名 的 连 
iH j s. 

自从 基因 连锁 规律 发 现 以 来 ВЗ ТЕЛЕТ B ЖЕ IER AED Е rik. Wap hr rik 


АЖЕН CR, ЗАЗНА Gr ЖАЛАП f ER BS aji ар ARAE 0—22] DNA 片段 
进行 物理 作 图 。 


ЕЕ ЕЛИ бананы 


近年 来 ,对 于 其 个 物种 基因 组 的 测序 计划 大 大 影响 了 遗传 作 图 。 许 多情 况 下 ,研究 人 员 
只 需要 花费 几 小 时 检索 -: 些 定位 数据 库 ,就 可 锁定 某 个 候选 基 内 的 关键 区 , J AS SER CAES 
那样 花 资 数 月 甚至 几 征 的 时 间 进 行 实验 来 确定 。 随 着 130 多 种 微生物 和 其 他 物种 数 百 个 基 
因 组 全 序列 的 完成 ,研究 人 员 面 临 的 任务 是 如 何 利用 这 些 公 共 的 基 内 组 资源 和 相关 的 定 伺 
信息 ,有 头 定 位 克隆 方法 可 参考 3.3.3 节 。 


4.3.1 基因 组 图 的 组 成 成 分 和 类 型 

基因 组 图 谱 成 分 (elements} 和 分 子 标 记 ( marker) 显示 DNA 水 平 的 多 态 性 。 因 所 采用 的 
分 二 生物 学 方法 不 同 ,所 得 到 的 画 谱 成 分 和 分 子 标记 的 类 型 也 不 同 。 从 分 子 机 制 的 观点 来 
看 ,在 DNA 水 平 存在 3 种 主要 的 多 态 类 型 ; 单 碱 基 改 变 引 起 的 单 核 三 酸 多 念 性 (SNP) fif A 
或 缺失 引起 的 片段 长 度 多 坊 性 (FLP) ,以 及 中 联 重复 数目 不 同 引 起 的 多 态 性 CVNTR) o AA 
Fi — fu ЖЖ ,分 子 标记 的 类 型 也 分 为 3 种 主要 类 型 : 双 等 位 基因 显 性 ,如 才 态 DNA 随机 扩 
增 (RAPDs) ЖИЕН ЕЛДЕ ( AFLPs) ; 双 等 位 基因 共 显 现 , 如 限制 性 片段 长 度 多 态 性 
(RFLPs) ;以 及 客 等 位 基因 共 显 性 ,如 微 也 星 DNA, 

指定 基因 或 分 子 标记 到 某 个 染色 体 半 确定 其 位 置 的 方法 有 多 种 。 经 则 的 定位 方法 是 配子 
定位 (meiotic mapping).， 其 原理 是 根据 双 杂 交 或 多 杂交 中 染色 体重 组 现象 。 例 如 很 据 自然 发 
:的 重组 现象 及 其 与 已 知 位 点 的 连锁 关系 来 确定 其 排序 。 箱 单 的 方法 是 将 一 个 携带 未 定位 的 
等 位 基 央 的 品系 与 携带 分 布 于 整个 基因 组 .染色 体位 加 已 知 的 分 子 标记 的 一 -组 品系 进行 杂 
交 。 道 过 观察 多 代 中 基因 型 来 合计 重组 的 可 能 性 并 进行 位 置 佑 计 ( 即 计算 遗传 距离 ,参见 
第 8 3€). 5) -种 配子 定位 的 方法 是 利用 RFLP 标记 和 单 序列 长 度 多 态 性 (SSLPs) 标 记 。 

第 二 类 定位 方法 是 通过 原 位 加 交 技术 建立 的 组 胞 遗传 学 图 谱 (eytogenetic map)。 定 位 
于 细胞 遗传 学 图 谱 的 标记 可 直接 通过 图 像 观 察 进行 确定 。 常 用 的 探 针 是 通过 放射 性 或 获 光 
标记 那些 携带 已 知 基 网 或 分 子 标 记 的 大 片段 播 人 的 克 降 。 在 荧光 原 位 杂 变 (FISH) 中 ,DNA 
探 针 色 获 光 标记 ,与 部 分 变性 的 染色 体制 片 温 育 。 探 针 结 合 到 该 基 凤 所 在 的 染色 体 特 定 部 
位 ,其 位 置 通过 荧光 斑点 显现 出 来 。 

第 三 种 类 型 的 定位 赔 为 物理 网 [physical map) 这 种 赂 谱 可 以 直接 确定 不 同 基因 组 成 
分 的 距离 或 根据 克隆 DNA 片 稻 对 各 基因 组 成 分 进行 排序 。 最 常 采用 的 物理 制图 方法 是 科 
PITE SU AE REEL ( sequence — tagged site, STS) HITHER 

第 四 种 类 型 也 是 最 常用 的 图 谱 , 是 全 基因 组 序列 图 (sequence map)。 这 种 图 谱 将 已 知 
基因 和 其 因 间 序列 精确 地 排列 到 染色 体 土 。 


4.3.2 定位 数据 库 

4.3.2.1 NCBIL 定 位 数据 库 

NCBI 除了 提供 最 著名 的 GenBank 和 Medline 数据 库 外 , 也 提供 其 他 多 种 功能 的 数据 
ж. Hh. . 些 专门 为 基因 组 定位 而 设计 。 这 包括 利用 Entrez 进入 800 密 种 狗 种 的 定位 数据 
而 进行 的 检索 , 即 Entrez Map Viewer 工具 。 它 是 一 种 交互 式 的 物理 网 .遗传 图 .基因 组 序列 、 
基因 各 其 他 基因 组 注 角 的 查看 工具 ,如 非 元 余 性 的 STS 数据 集 UniSTS ,链接 到 不 同 数 据 库 
界面 的 LocusLink ,以 及 人 类 基因 图 GeneMap 99 等 。 


$, 
Ж 


— PIT ER 


Entrez Map Viewer 工具 根据 染色 体位 置 查找 和 显示 基因 组 信息 。 对 于 感 兴趣 的 区 域 可 
提供 文本 查询 (如 基因 和 分 子 标记 名 称 ) 或 根据 序列 比 对 ( BLAST) 查找。 该 查看 工具 可 查 
看 和 检索 某 物 种 的 整个 基因 组 ,显示 出 染色 体 图 ,可 放大 到 某 个 细小 区 域 , 直 到 其 序列 信息 。 
Entrez Map Viewer 在 4 个 水 平 进 行 显示 。 第 一 个 水 平 是 在 NCBI 的 主页 ,又 称 NCBI Map 
View, 可 显示 各 种 库存 物种 图 谱 ,根据 各 物种 目录 链接 到 基因 组 图 。 第 二 个 水 平 的 图 形 显示 
是 将 整个 基因 组 展现 为 根据 染色 体 大 小 的 表意 图 (ideogram ) , XEK Genome View, 可 对 该 基 
因 组 图 进行 全 面 检索 ,这些 数据 可 包括 一 系列 图 谱 , 如 序列 图 细胞 遗传 图 .遗传 图 .放射 杂 
交 图 ( RH) 等 。 第 三 个 水 平 是 Map View。 它 依次 显示 某 染 色 体 上 图 谱 的 各 组 成 成 分 。 进 入 
Map View 的 方法 有 多 种 ,包括 :点 击 Genome View 图 形 页 中 某 个 染色 体 号 ;G@) 点 击 基 因 组 
水 平 检索 结果 的 图 表 中 图 谱 成 分 名 称 ;@ 点 击 基因 组 水 平 检索 结果 图 表 中 的 图 形 名 称 ;@ 通 
过 LocusLink 检索 结果 点 击 进入 ( 详 见 下 文 )。 图 4 -4 RR A, Y 染色 体 的 Map View 图 。 
Entrez Map Viewer 第 四 个 水 平 的 查看 是 特定 染色 体 区 段 的 序列 。 显 示 图 形 包括 基因 的 编码 
区 RNA 以 及 对 该 序列 特征 的 注解 。 有 两 种 常用 的 方法 进入 Sequence View :一 种 是 通过 基 
因 组 水 平 检索 结果 ,通过 点 击 染色 体 表意 图 下 面 的 SV; 另 一 种 是 点 击 Map View 显示 的 染色 
体 区 段 结果 ,点 击 感 兴趣 部 位 的 SV( 如 图 4 -4 所 示 )。 图 4 -5 显示 图 4 -4 中 对 应 的 锌 指 
ЖН 10 kb 的 序列 ,可 利用 序列 左右 两 端的 箭 号 ,分别 查看 上 下游 序列 。 有 关 NCBI 基因 
组 图 谱 其 他 特征 的 查找 方法 可 参阅 3.6 节 。 
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图 4-4 iit NCBI 的 Map View 得 到 的 人 YY 染色体 图 
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4-5 点 击 图 4 -4 中 Y 染 色 体 图 中 锌 指 蛋白 旁边 的 SV 得 到 10 kb 的 Sequence View 


LocusLink (http://www. ncbi. nlm. nih. gov/LocusLink/ ) 是 另 一 种 常用 的 检索 工具 , 它 可 
提供 一 个 查询 界面 ,分 别 链接 到 对 指定 位 点 的 不 同 的 信息 类 型 ,如 表 型 .图谱 位 置 .与 其 他 基 
因 的 同 源 性 等 。LocusLink 查询 方式 可 以 是 文本 (如 蛋白 质 或 疾病 名 称 ) .基因 符号 .序列 登 
记号 和 数据 库 标志 号 (如 MIM 或 EC 号 码 ) 。LocusLink 还 支持 其 他 更 复杂 类 型 的 检索 方 
法 ,如 通用 符号 (wild сага) (11 АВС  ) 区域 限制 (如 123456[ mim] ) 和 逻辑 符号 (如 ABC + 
和 17 [chr] ) 。LocusLink 查找 的 第 一 步 是 在 主页 上 方 的 查询 框 中 键入 文本 术语 ,也 可 按 字 
母 顺 序 从 基因 列表 中 输入 感 兴趣 的 基因 。 以 鸟 苷 酸 结 合 蛋白 -5(GNB5 ) 为 例 ,通过 Locus- 
Link 得 到 图 4 -6 的 检索 结果 ,分 别 显示 人 、 小 鼠 和 大 鼠 的 相应 基因 条 目 。 显 示 结 果 中 第 一 
列 为 LocusID 号 ,是 一 个 特定 基因 的 标志 号 码 , 其 他 列 依次 显示 物种 .基因 符号 .位 点 描述 、 
染色 体 定 位 和 相关 链接 。 这 些 链接 中 ,由 不 同 颜色 的 字母 表示 ,P( 深 色 ) 代 表 PubMed, О 代 
X ОМІМ, К 代表 RefSeq,G 代表 GenBank ,P( 浅 色 ) 代 表 蛋 白质 序列 ,H 代表 同 源 序列 ,U 代 
表 UniGene, V 代表 SNP 等 不 同 数据 库 。 

当 点 击 LocusID 号 为 14697 时 ,显示 小 鼠 的 相关 信息 (图 4 -7)。 结 果 上 方 用 不 同 颜色 
的 按钮 链接 外 部 数据 库 , 如 PubMed, UniGene, МАР, HOMOL, MGI 等 。 报 告 结果 分 8 个 部 
分 ,分 别提 供 有 关 LocusID 和 类 型 功能、 图 谱 信息 .参考 文献 和 相关 序列 .与 其 他 数据 库 的 
链接 等 。 

除 上 述 Map View 和 LocusLink 外 ,NCBI 中 还 有 其 他 与 基因 定位 有 关 的 工具 ,包括 ; 


:nih.gov/LocusLink/list .cgi 


tre 


NCBI LocusLink =— —- 


LocusLink 
Gnb5 


3 loci found 

LocusID Org Symbol Descripti« 7 Posion Links ^^ 7 
Г 10681 Hs СМВ5 guanine nucleotide binding protein (С 15921 1 ЩИТИ 
protein), beta 5 


Г 14697 M» Gnb5 guanine nucleotide binding protein, 9410 四 LIENS 
beta 5 cM 


Г 83579 Ая  Gnb5 guanine nucleotide binding protein beta [Р] 
5 


3 loci found 


4-6 LocusLink 查询 GNB5 的 结果 显示 图 


ORS, h. wa Sa, Gas, быш, O beta 5 


S coeza ламы :aa t 


4-7 Ih GNB 5 的 LocusLink 报告 结果 


GeneMap99 http ;// www. ncbi. nlm. nih. gov/genemap99/ 


The Cancer Genome Anatomy Project http://www. ncbi. піт. nih. gov/ncicgap/ 


Gene Nomenclature Resources http :// www. ncbi. nlm. nih. gov/ LocusLink/LLnomen. html 
OMIM http://www. ncbi. піт. nih. gov/entrez/query. fcgi? db - OMIM 


Entrez SNP http://www. ncbi. nlm. nih. gov/ entrez/ query. fcgi? db = snp 
dbSTS http://www. ncbi. nlm. nih. gov/ dbSTS/ 
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4.3.2.2 MGD 

小 鼠 基 因 组 数据 库 ( mouse genome database, MGD ) 是 一 种 综合 性 的 数据 库 ,由 位 于 美国 
缅 因 州 的 Jackson 实验 室 建立 和 维护 ,主要 整合 实验 小 鼠 的 遗传 和 基因 组 信息 ,包括 小 鼠 
基因 ,遗传 标记 、 基 因 组 特征 、 分 子 片段 ( 探 针 、 引 物 .cDNA 克隆 、BAC 克隆 、YAC 克隆 等 ) 、 
突变 表 型 .比较 基因 组 定位 图 .连锁 图 细胞 遗传 图 ,物理 图 .实验 定位 资料 (如 RH 定位 ) 。 
日 该 数据 库 在 WWW 公布 以 来 ,其 数据 库 内 容 不 断 更 新 和 扩展 ,资料 处 理 和 检索 工具 也 在 
不 断 改进 。 到 2003 年 8 月 ,该 数据 库 包 含 32 380 个 基因 ,其 中 30 270 个 基因 已 被 定位 ， 
29 177 个 基因 具有 DNA 序列 ,5 602 个 基因 具有 蛋白质 序列 ,9 951 个 基因 具有 人 的 同 源 基 
因 ,超过 29 130 个 基因 具有 分 子 探 针 和 片段 资料 ,超过 3 600 个 基因 具有 分 子 多 态 性 。 这 些 
基因 中 ,已 鉴定 53 310 个 分 子 标 记 , 其 中 49 850 个 已 定位 ,超过 12 740 个 标记 具有 其 多 态 
性 。 

MGD 中 的 图 谱 和 定位 资料 可 通过 不 同方 法 获取 ,主要 有 “Mapping Data Query Form" , 
“ Recombinant Inbred Strain Distribution Patterns Query Form" , “ Recombinant Congenic Strain 
Distribution Patterns Query Form", “DNA Mapping Panel Data Sets", “ Суіовепііс Мар” #1 
"Physical Map”。 另 外 ,比较 基因 组 图 谱 和 数据 可 通过 “Mammalian Orthology Query Form" , 
“Whole Genome Orthology Map to Human or Rat” 等 方式 获得 ,同时 可 得 到 染色 体 比 较 的 “Ox- 
ford Grid" 的 数据 矩阵。 图 4 -8 是 一 个 “Mapping Data Query Form" 检索 Ctla4 基因 的 例子 。 
结果 显示 包括 符号 、 名 称 、 图 谱 位 置 哺乳 类 同 源 性 ,序列 、 表 型 .基因 分 类 、 和 蛋白 结构 域 .参考 
文献 等 概括 性 信息 。 许 多 详细 信息 可 链接 到 外 部 数据 库 , 如 GenBank, SWISS - PROT, 
TrEMBL, LocusLink, Ensembl, InterPro ^&, МСР 同时 提供 小 鼠 与 其 他 哺乳 动物 如 人 КЕ 
等 同 源 性 比较 资料 和 有 关 人 与 小 鼠 相 同 表 型 的 注释 。 点 击 链接 点 可 得 到 更 详细 的 相关 信 
息 。 此 外 ,MGD 可 按 用 户 需要 构建 特殊 区 域 的 图 谱 , 如 整合 个 人 的 研究 资料 到 连锁 图 等 。 
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4.3.2.3 其 他 定位 数据 库 
除了 上 述 大 型 定位 数据 库 如 NCBI 和 МСР 外 ,其 他 一 些 定 售 数据 库 侧 重 于 某 些 特 殊 方 


遗传 图 

GDE 

RGD 
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Genethon 
HuGeMap 
Marshfield Map 
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物 型 图 

СЕРН 
HuGeMap 
Whitehead map 
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放射 杂交 图 
СепеМар' 99 
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RHdb 
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比较 基 央 组 图 
CHLC 
HomoloGene 
MGI 
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Ti, AUA Xt epe e Ep bb Hp C k 8806 AE 6 HF STET .放射 杂交 图 等 。- . 
些 主要 定位 数据 库 和 项 旦 的 网 络 资源 如 下 : 


http://www. gdb, org/ 

htip ://rdg. mew. edu 

http ://gai. nci. nih. gov/ CHLC/ 

http://www. cephb. fz/ceph ~ genethon — map. html 


Һир: // www. infobiogen. fr/services/Hugemap/ 
http:/7/research. marshfieldclinic. org/genetics/ Map _ Markers/ 


maps/ IndexMapFrames. html 
http ://compgen. rutgers. edu/ mapomat/ 


http://www. cephb. fr/ceph — депе оп — map. html 


http://www. infobtogen. fr/services/ Ниретар/ 

http://www — genome. wj. mit. edu/cgi — bin/contig/phys map 
http://www ~ genome. wi. mit. edu/cgi — bin/contig/phys map 
http://www — genome. wi. mit. edu/cgi — bin/mouse/index 


http://www. nchi, nlm. nih. gov/genemap99/ 


http://www — genome. wi. mit. edu/mouse rh/ 

http ://corba. ebi. ас. uk/RHdb/ 

hitp :rshge — www. stanford, edu/RH/index. html 
http://www. sanger. ac. uk/Software/ RHserver/ 
http://www. cs. technion. ac. il/ Labs/cbl/CCL/rh — wizard. pl 
http ;//imprh. toulouse. іпга, fr/ 


http; //www — genome. wi. mit. edu/mouse th/ 


http: //gai, nct. nih. gov/ CHLC/ 


http://www. пері, піп. nih. gov/ HomotoGene/ 
http://www. informatics. jax. org/menus/homology menu. shtml 


http ;Z/rgd. mew. edu^/VCMAP/ 
http://www. gdb, org/ 


整合 疼 

GDB hitp :// www. gdb. org” 

RGD http ://тра. mew. edu 

UDB http ://genecards. weizmann. ac. il/geneloc/ 

LDE http: ZZeedar. genelics. soton, ac. uk public_html 

HIE T E 

CGAP hitp://cgap. nci. nih. gov/ 

Coriell Cell Repositories. — http:// locus. umdnj. edu” 

GDB http://www. gdb. org/ 

NCBI http :Z/ www. nchi. nih. gov- genome cyto hbre. shtml 

NCBI http://www. nobi. nim. nih. gov/sky/ 

WICGR http://www. genome. wi. mit. edu/seq/mapping. html 

Ала fe 8 

Rice( К) htlp :Z/ www. tigr. org/tdb/e2k1/0sal/ 

Arabidopsis ( BE 2T ) http://www. arabidopsis. org servlets/ mapper 

Oryza sative ( zK #Ël ) http://www. псы. піт. nih. gov/mapview/map. search. egi? lax- 
id -4530 

Avena sativa. ( ЕЖЕ) http://www. nchi, nlm. nih. gov/mapview/map. search. egi? 1ах- 
id = 4498 

Glycine max (Ez) http://www. nebi. nlm. nih. gov/mapview/map. search. cgi? tax- 
id =3847 

Hordeum vulgare ( A Ж) bitp://www. nchi. пип. nih. gov/ mapview/ map. search. cgi? tax- 
id =4513 

Triticum aestivum (У) http://www. ncbi. nlm. nih. gov/mapview/map search. cgi? tax- 
id = 4565 

Zea mays (ЖЖ) http://www, пері. nlm, nih. gov/mapview/map. search. cgi? lax- 
id 24577 


4.4 医学 数据 库 


尽管 有 头 ОМА 利生 蝗 质 序列 的 数据 库 是 生物 学 家 非常 有 几 的 工具 ,但是 那些 非 序 列 数 
据 的 信息 资源 利 有 关 基 因 突 变 的 医学 数据 库 也 是 研究 基因 和 和 相关 疾病 的 重要 资源 ,这 也 是 
临床 生物 信息 学 (elinieal bioinformaties) 的 重要 内 容 之 一 。 由 于 基因 斑 含 蛋白 质 的 编码 信 
息 , 佛 白质 是 体内 生命 活动 的 主要 体现 者 。 基 因 序 列 的 变异 影响 着 蛋白 质 的 结构 和 功能 ,其 
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中 - 些 可 导致 相应 的 走 坦 即 遗 传 病 。 本 节 主 要 讨论 的 常用 医学 数据 库 包 括 在 线 人 类 孟 德 尔 
Ж {ЕЕ РЕ OMIM (http://www. nchi. nim. nih. gov/omim/) ， 人 类 基因 组 变异 数据 库 HGY- 
base( http: //hgvbase. cgb. ki. se/) , A Æ ЖЕ 38 5 C EE HGMD (http://archive. uwem. ас. 
uk/uwem/mg/hgrd0. html) 和 NCBI 中 的 dbSNP 数据 库 ( http://www. nebi. nlm. nih. роу 
SNP/), 


4.4.1 OMIM 

OMIM( online Mendelian inheritance in man) 3 E Johns Hopkins KÆ 89 # M iB 826 C 
Victor MeKusick 建立 的 有 关 人 类 基因 利 遗 传 病 目录 的 电子 版 ”’。 它 具有 大 其 的 可 检索 和 
随时 更 新 的 有 关 人 类 基因 ,遗传 性 状 或 遗传 病 的 数据 。OMIM Ple CUIRE BU SEE RE PH er B 
外 ,也 收集 来 自 公 开发 表 的 文献 中 具有 遗传 基础 的 人 类 痪 病 的 信息 及 其 临 订 特 征 和 柑 关 参 
考 文 献 等 。OMIM 多 数 有 关 基 因 的 条 上 日 中 ,包含 了 已 发 表 的 等 位 基因 或 病理 性 基因 突变 的 
信息 。 BZ 2003 年 9 月 ,OMIM 共有 14 730 个 条 目 ,其 中 10 955 个 为 基因 位 点,1 387 个 为 
AUR. 

OMIM 也 提供 检索 基因 利 遗 传 病 的 3 个 特殊 的 界面 :OMIM 检索 .OMIM 基 内 图 和 OMIM 
Morbid 图 。 用 户 可 在 OMIM 检索 框 中 输入 一 个 或 多 个 关键 词 ( 包 括 临床 .生化 和 细胞 遗传 
RAES), OMIM 基因 图 产生 一 个 单 … -CPR, ibo EAE e, fr BJ C, ТАН ЛЕЛИ Pe E ГУ, 
有 利于 基因 序列 的 观察 。OMIM Morbid [818 $1] 53 — k — AA, ЕЗЕН ЙЕР W n B Pe Ж 
和 相应 的 细胞 遗传 图 谱 。 

每 个 OMIM 记录 的 显示 结果 中 ,包括 MM 号 .正式 基因 符 导 .基因 产物 名 称 .基因 位 点 
(如 果 已 知 的 话 ) ,疾病 概述 或 基因 产物 功能 ,以 及 从 发 表 文 献 中 总 结 的 有 关 基 因 ЖОЛА LEE 
状 的 文字 信息 等 。OMIM 也 链接 到 Medline 的 引文 和 其 他 相关 的 OMIM 条 目 或 NCBI 的 有 关 
数据 库 。OMIM 基 央 图 工具 细胞 遗传 定位 排列 ,分 别 显示 基因 符号 .和 名称.MIM 号 .相关 疾病 
名 称 ( 如果 已 知 ) 及 其 他 信息 。 每 个 OMIM 基因 图 条 目 都 与 NCBI 的 Map View 和 其 他 相关 
OMIM 条 目 链接 。OMIM 的 Morbid 图 的 记录 中 , 按 宁 款 顺序 将 疾病 名 称 排列 ,包括 基因 符 
号 ВИН MM 号 和 与 相关 基因 和 和 染色体 位置 的 链接 (参见 图 4 -9)。 


4.4.2 HGMD 


HGMD(human gene mutation database) RE Hj жг t À ҖЕ ped RS BL A DE P š 
据 库 ,由 英国 Wales 大 学 医学 院 医学 遗传 研究 所 建立 ,目前 与 Celera Genomics 合作 ,并 得 到 
Genome Databases( СОВ) 等 公司 的 支持 。 该 数据 库 的 初衷 是 用 来 研究 人 类 基 央 突变 的 机 
制 … ,目前 其 用 途 更 加 广泛 ,包括 不 断 更 新 的 综合 性 人 类 基因 病理 改变 的 网 谱 , 为 基因 诊断 
提供 重要 资源 信息 ,以 满足 下 列 人 员 的 需求 :四 人 类 分 子 遗 传 学 研究 人 员 和 病理 诊断 学 者 
加 对 具有 某 种 遗传 病 的 叫 者 或 家 庭 感 兴趣 的 医生 ; 包 遗 传 容 询 师 。 

HMGD 含 致 病 基 因 编 码 区 的 不 同类 型 的 突变 ,包括 :编码 区 的 单 碱 基 置 换 . 调 节 区 利 前 
接 区 的 突变 .微小 缺失 或 搬入 (indel) .三 核 苷 酸 重复 扩 增 .大 片段 插 人 或 缺失 ,重复 和 重 排 
等 。HGMD 中 涉及 的 突变 多 引起 明 尺 的 表 型 结果 ,还 包括 杂志 中 已 发 表 与 疾病 相关 的 多 态 
位 点 。 这 种 疾病 相关 多 态 位 点 约 占 HGMD RFA HB 1.596 ,多 数 为 单 核 苦 酸 置换 ,少数 为 


#4 #1 ESVUIIEREA #4 


Online Mendelian Inheritance in Моп ША и... 


The OMIM Morbid Map presents the cytogenetic map locaton of disease genes descnbed m OMIM. Fora map organized by chromosome, see the OMIM 
For more refined maps of genes and DNA segments, use NCBI Entrez Map Viewer and the Genome Data Base 
Search for mmm  —— [Ena] пазмон | (from the current location) | 
* Enter gene symbol, chromosornal location, or disorder keyword to search for, e g "recessive", "CYP1",*5*, "Ipter", or "xa" 
e You must capitakze X and Y to search for those chromosomes 


NS à 


Altheimer disease, typ: 


104300202 — — 
e 3, 607822 (3) 
Alzhesmer disease, type 3, with spastic paraparesis and apraxia, 607822 (3) 
Alzheimer disease, type 3, with spastic paraparesis and unusual plaques, 607822 (3) 
Alzheimer disease-1, APP.related (3) 
Alzheimer disease-2, late onset (2) 
Alzhemer disease-4, 104300 (3) m 


104311 |14424.3 
104760 


104310 | 19cen-q13.2 


Amelogeness imperfecta-3, hypoplastic type (2) (?) z 


CNET eS "nomme 
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插入 或 缺失 多 态 性 。 到 2003 年 7 月 止 ,HGMD 包括 1 399 个 基因 中 35 114 个 突变 ,并 提供 
相应 的 1 243 个 cDNA 序列 。 

HGMD 可 通过 查找 界面 按 疾 病名 、 基 因 名 和 基因 符号 进行 查询 。 每 个 检索 结果 会 得 到 
对 应 的 一 系列 基因 符号 。 点 击 每 个 基因 符号 可 进入 一 个 记录 ,总 结 突变 类 型 . 表 型 .突变 位 
置 ,以 及 与 突变 类 型 和 表 型 有 关 的 记录 数目 (参见 图 4 - 10)。 点 击 突变 类 型 将 显示 出 登记 
号 ,位 置 . 相 关 表 型 和 与 该 突变 相 链接 的 参考 文献 。 每 个 基因 的 记录 还 与 突变 图 谱 该 基因 
的 cDNA 序列 .其 他 数据 库 中 基因 有 关 的 记录 相 链接 。 


4.4.3 其 他 突变 数据 库 

在 许多 其 他 基因 突变 资源 中 , HGVbase( human genome variation database ) #1 NCBI 的 db- 
SNP 最 受 研究 人 员 的 青睐 。 这 两 个 数据 库 均 收集 常见 的 SNP 数据 。SNP 的 发 生 频 率 为 
100 ~ 300 个 碱 基 中 就 有 一 个 ,这 对 遗传 学 中 关联 分 析 非常 有 用 。 

HGVbase 是 由 瑞典 Karolinska 基因 组 与 生物 信息 学 研究 中 心 .EBI 和 EMBL 共同 建立 。 
该 数据 库 的 记录 为 人 类 基因 组 已 知 序列 变异 进行 注释 ,这 为 研究 人 员 了 解 基因 组 序列 变异 
性 如 SNE ,及 其 与 复杂 性 状 的 易 感 性 或 药物 反应 性 ,提供 了 重要 的 资源 ( 分 别 参见 3.1.3 和 
9.2 节 )。 每 个 HGVbase 记录 的 资料 来 源 于 公开 发 表 的 基因 组 数据 或 文献 ,每 个 记录 经 人 
工 校 阅 和 注解 。HGVbase 与 NCBI 的 dbSNP 共享 数据 ,并 整合 dbSNP 的 一 些 记 录 。 

dbSNP 是 NCBI 中 建立 的 专门 收集 序列 变异 ,如 小 片段 插入 或 缺失 .重复 片段 多 态 性 和 
微 卫 星 的 公共 数据 库 。 其 数据 来 源 可 以 是 由 研究 人 员 递 交 到 数据 库 的 任何 物种 的 序列 变 
异 。 该 数据 库 从 GenBank 分 离 出 来 ,但 与 NCBI 的 其 他 资源 如 GenBank, LocusLink, PubMed 


Presenilin-2 (alzheimer disease 4) 
Gene symbol : PSEN2 
Location : 19 


mA HGMD?, 


Mutations in this gene were first reported in 1995 


Rogaev (1995) Nature 376, 775 


Number of entries by mutation type 


Chek on the respective mutation type to mew detailed information about the mutations as logged m HGMD 
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| Nucleotide substitutions (ephcing) 
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| Sman deletions 
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上 —— 


4-10 HGMD 查询 结果 示意 图 
图 中 显示 与 Alzheimer 氏 病 有 关 的 疾病 .基因 符号 ,报告 日 期 ,突变 类 型 等 结果 


等 相互 链接 。dbSNP 可 通过 Entrez SNP 或 dbSNP 的 “Easy Search Form” 进 行 检索 ,也 可 通过 
BLAST 检索 工具 来 比较 查询 序列 与 数据 库 中 已 有 序列 的 不 同 之 处 。 
除 上 述 数据 库 外 ,其 他 医学 数据 库 列 出 如 下 : 


遗传 病 发 病 率 http://archive. uwcm. ас. uk/uwem/ mg/fidd/ 
哮喘 基因 http ://cooke. gsf. de/ wjst/ home. cfm 

乳腺 癌 基 因 http ://condor. bcm. tmc. edu/ ermb/ becgd/ Бера. html 
等 位 基因 频率 http ://alfred. med. yale. edu/alfred/index. asp 

通用 突变 http://www. umd. necker. fr/ 

蛋白 质 突变 http://www. genome. ad. jp/htbin/www. bfind? рта 


疾病 为 中 心 的 主要 突变 http://www. genomic. unimelb. edu. au/mdi/dblist/disease. html 


4.5 ”生物 信息 的 获取 与 数据 库 查找 工具 


分 子 生物 学 数据 库 解 决 的 是 现代 生物 学 中 的 关键 性 问题 , 即 涉及 DNA 或 蛋白 质 序列 、 
功能 基因 组 、 和 蛋白 组 和 生物 大 分 子 结构 的 相关 信息 。 数 据 库 的 作用 不 是 仅仅 为 了 储存 资料 ， 
而 是 需要 获得 和 分 发 数据 。GenBank 中 的 数据 本 身 没 有 多 大 用 途 ,除非 能 方便 查找 和 获得 
一 种 可 供 使 用 而 有 意义 的 数据 格式 。 已 建立 许多 不 同 的 算法 和 工具 ,从 这 些 数 据 库 中 获取 
相关 信息 。 这 些 方法 大 致 分 为 两 大 类 :第 一 类 是 根据 文本 的 检索 工具 ,如 Entrez; 第 二 类 是 根 
据 序列 进行 检索 的 工具 ,如 FASTA 和 BLAST。 后 一 类 主要 根据 序列 相似 性 进行 查找 。 这 里 主 
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要 讨论 上 述 3 种 分 子 生 物 学 数据 库 的 常用 检索 工具 。 有 关 基 因 组 图 的 查找 方法 参见 3.6 
节 。 定 位 数据 库 的 查找 ,如 Entrez Map View 和 LocusLink 方法 ,已 在 4.3.2 节 中 作 过 介绍 。 


4.5.1 Entrez 


NCBI 中 的 Entrez 是 最 常用 于 获取 分 子 生 物 学 数据 库 信 息 的 工具 ,如 PubMed 论文 数据 
库 、 核 苷 酸 和 蛋白 质数 据 库 .三 维 结构 数据 库 .基因 组 和 定位 数据 库 .基因 表达 数据 库 等 ( 见 
图 4 -11) 。Entrez 提供 一 个 综合 数据 库 检索 系统 ,可 从 超过 13 万 个 物种 的 DNA 和 蛋白质 
序列 中 获取 相关 信息 。 这 些 信 息 来 源 包 括 NCBI 分 类 学 .基因 组 图 .人 群 . 基 因 表 达 数 据 、 分 
子 模型 数据 库 (MMDB ) 的 蛋白 结构 .3D 结构 和 结构 域 . PubMed , OMIM, 在线 书 目 等 。 
PubMed 包括 1 200 万 个 参考 文献 和 从 MEDLINE 中 得 到 的 摘要 ,并 与 3 000 多 种 可 从 网 上 获 
得 全 文 的 杂志 建立 链接 。 通 过 Entrez 获得 的 序列 资料 来 自 GenBank, EMBL, DDBJ, Ref- 
Seq, PIR, PRF, SWISS—PROT, РОВ 等 。 


4-11 Entrez 综合 信息 检索 系统 示意 图 
数据 来 源 :http://www. ncbi. піт. nih. gov/Database/index. html 


Entrez 的 查找 可 用 不 同 的 文本 类 型 ,如 作者 名 、 杂 志 名 、 基 因 或 蛋白 质 名 ,物种 特殊 标 
志 ( 如 GenBank 登记 号 .序列 ID, PubMed ID, MEDLINE UID) ,及 根据 所 检索 数据 库 不 同 而 
采用 的 其 他 形式 。Entrez 检索 是 根据 不 同 公共 数据 库 中 不 同 条 目 之 间 , 预先 存在 的 逻辑 相 
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互 关 系 。 因 此 ,只 要 进行 . :个 查询 ,可 得 到 不 局 数据 库 之 间 存 在 相互 联系 的 条 目的 综 会 全 
E. Entrez 的 两 种 联系 方式 足 近 邻 关 系 (neighboring) 和 硬 链 接 ( hard link )。 近 邻 关系 是 预 
先 运 算 的 相似 性 查找 方式 ,发 现 数据 库 记 录 中 相关 的 记录 ,， 根 据 数据 库 的 不 同 ,其 算法 有 所 
不 同 。 例 如 , 若 用 户 相 查找 某 个 PubMed ER, ATER Entrez 我 册 PubMed 中 与 原文 主 
题 相 似 的 其 他 文献 。 同 样 EFL PUE BER CT A], Entrez 可 回复 与 该 序列 相似 的 一 系列 其 
他 序列 。 近 邻 关 系 的 确定 是 根据 统计 学 方法 测定 其 相似 程度 ( 参见 4.5.3"BLAST” )„ б 
接 是 用 来 将 不 同 数据 库 之 间 存 在 逻辑 关系 的 条 目 建立 相互 联系 ,使 得 不 同 数据 库 的 资料 得 
以 整合 。 例 如 ,条 MEDLINE 建立 中 引用 了 GenBank 中 的 校 昔 酸 序列 的 记录 ,后 者 被 链接 
到 和 蛋 凰 质 序列 ,由 此 ,3 个 数据 库 之 间 就 建立 起 某 种 联系 。 

通过 Entrez 获取 的 结果 可 以 不 同 的 格式 显示 或 下 载 。 格 式 的 选用 依 记 录 类 型 而 异 。 例 
如 GenBank 的 记录 格式 分 为 Мае, FASTA, XML, ASN.1 等 。 某 些 记录 如 基因 组 记录 还 
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4.5.2 FASTA 

FASTA 是 最 早 广泛 使 用 的 一 种 数据 库 相 伺 性 检索 程序“” ,用 于 检索 核 昔 酸 和 和 蛋白 质 
序列 数据 库 中 的 序列 相似 性 和 同 源 性 。FASTA 是 专门 为 鉴定 那些 从 远古 祖先 继 康 下 来 的 
蛋白 质 序 列 而 设计 的 ,尤其 对 那些 演化 程度 高 、. 低 相似 性 的 长 片段 更 为 适用 。 许 多 情况 下 ， 
FASTA 查找 的 结果 为 与 查询 序列 同 源 的 具有 很 高 记分 的 系列 文库 序列 ,或 者 得 到 相似 记分 
的 一 系列 无 法 从 大 量 文库 序列 区 分 开 来 的 序列 。 这 两 种 情况 下 都 能 明白 地 回答 文库 中 大 否 
具有 与 查询 序列 相似 的 序列 问题 。 

FASTA 检索 方法 快捷 ,具有 选择 性 ,主要 由 于 其 最 初 仪 考虑 氢 基 酸 的 相同 性 。 其 敏感 
性 的 提高 不 仅仅 因为 利用 PAM250 持 阵 对 大 量 相同 氨基 酸 进行 记分 和 重 记 分 ,同时 也 进行 
开始 区 域 的 合并 ， 现行 常 用 的 FASTA 程序 是 FASTA3, FASTX3, TFASTA3 ЖІ TFASTX3 ; 
FASTA3 用 来 比较 屋 白 质 序列 与 蛋 户 质 序列 数据 库 ,或 考 DNA 序列 与 DNA 序列 数据 库 。 检 
索 速 度 和 选项 通过 ktup( 文 字 大 小 ) 产 生来 控制 :蛋白 质 比较 用 1 和 2,DNA 比较 用 1 到 6。 
选用 的 数值 越 小 ,敏感 性 越 高 ,但 速度 越 慢 。FASTX3 用 来 比较 DNA. FE VEO EL ER Pr PC 
据 库 。DNA 序列 采用 3 种 不 同 读 框 ,允许 空位 和 位 移 的 存在 。TEFASTX 比较 蛋白 质 序列 与 
DNA 序列 数据 库 , 计 算 正 向 和 反 向 移 码 ( frame shift) 的 相似 性 。TFASTA3 用 来 比较 蛋白 质 
序列 与 DNA 序列 数据 库 ,计算 3 种 正 向 和 3 种 反 向 读 框 的 相似 性 (无 移 码 )。 


4.5.3 BLAST 


BLAST 是 一 种 快速 序列 比较 工具 ,采用 启发 式 方法 根据 优化 的 局 部 相似 性 构建 比 对 关 
8 。 局 部 比 对 只 比较 两 序列 某 些 区 域 的 相似 性 ,而 整体 比 对 是 比较 两 序列 的 全 长 序列 
(参见 第 5 章 )。BLAST 利用 局 部 比 对 找 出 两 序列 的 相似 性 区 域 。 由 于 BLAST 在 比较 DNA 
或 恒 和 白质 序列 时 较 动 态 编 程 方法 Smith — Waterman L5 l Needleman — Wunsch "I 快 ,因而 广 
泛 用 丁 数据 库 的 查找 。 — 

NCBI 的 BLAST 十 具 是 最 常用 的 站 点 。 该 程序 可 对 一 系列 序列 数据 库 进行 序列 相似 性 
分 析 , 查 询 方法 可 用 序列 或 GenBank 登记 号 。 表 4 -2 所 列 为 不 同 的 BLAST 亚 类 ,主要 基于 
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所 查询 序列 和 检索 的 数据 库 椒 同 而 设计 。 


表 4-2 BLAST 检索 程序 的 比较 


程序 在 询 内 容 BEE ERR 评价 
BLASTP EF ЖАЙ РТТ ҮЛТҮ 
比较 互 关系 距离 
BLASTN FE ми DNA 序列 与 DNA 序列 数据 库 
的 比较 
BLASTS и Жай ЖЕНЕ ОЛУЗКИНЕТЕГЕ ЛИН ВЕРЕ 
(ШИШ 列 与 合 白 质数 据 库 的 比较 列 的 可 能 蛋 户 质 序列 
TBLASTN Жай HEN, 查询 蛋白 质 序列 与 各 种 阅读 方 。 HUBIESE ЖЕШ 
(翻译 的 起 的 核 音 酸 序列 数据 库 的 比较 “的 编 驹 序列 
TBLASTK BUE EDEN АНБИЯ 6 ЖЕЦЕ 常用 于 EST 分 析 
( 翻译 的 ) (Жи) — 式 与 核 攻 酸 数据 库 的 6 种 阅读 方 
式 的 比较 


BLAST 检索 的 结果 显示 是 查询 序列 与 相似 序列 之 间 的 可 允许 空位 比 对 关系 ,其 剧 示 内 
容 -- 般 分 为 4 个 部 分 :其 上 方 为 独特 的 申请 JP 号 ( RID) ,查询 信息 ,数据库 信息 及 其 与 分 类 
学 的 链接 ;第 .二 个 部 分 为 查询 序列 比 对 的 图 形 显示 窗 ; 接 下 来 的 第 三 部 分 为 找 出 的 相似 序列 
的 描述 ;第 四 部 分 症 两 两 比 对 的 具 剧 结果 。 

图 4 —12 显示 的 是 查询 的 luciferin 4 — monooxygenase ( 708659} 8$ — .四 部 分 的 一 些 结 
果 。 第 三 部 分 结果 显示 栏 的 左 侧 为 该 序列 记录 的 链接 点 。 右 侦 的 记分 值 是 根据 空位 和 置换 
得 到 的 计算 结果 1{ 和 参见 第 5 章 ) 。 记 分 越 高 , 比 对 的 相似 性 越 显 著 。 每 个 记分 链接 到 第 四 部 
分 的 两 两 比 对 结果 。F 值 (expected value) 表 示 具 有 相似 记分 的 序列 在 数据 库 中 出 现 的 随机 
出 现 的 可 能 性 。E 值 越 小 ,表明 比 对 关系 越 显著。 例如 图 4 -12(4) 中 第 一 个 比 对 的 E 值 为 
0.0, 表 明 具 有 同样 记分 的 序列 随机 性 是 不 可 能 的 。 第 二 部 分 最 右边 所 显示 的 字符 ,是 与 对 
应 数据 库 链 接 的 标志 ,如 上 Xn LoceusLink, S 表示 NCBI 中 的 MMD Z& Hj PE. 4—12 
(b ERKE BLAST 结果 的 第 四 部 分 的 滑 容 ,显示 查询 序列 (Quer ) 与 所 配对 的 序列 (Sb- 
jcO 的 比 对 ,中 间 行 显示 相同 或 相似 氨 茶 酸 。 
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Score E 
Seqguerces producing significant alignments: (bits) Value 
gi|209229|gb|AAA72988.1| luciferase kanamycin resistance рг 1008 0.0 
gi|13160953|gb| AAK12426 .1| AF320510 4 luciferase [Promoter p 1093 0.0 
qi [126501 | =р|Р08659|10сІ PHOPY Luciferin 4-monooxygenase (L- 1092 0.0 ES 
1 [17530182 |95 [8140737 1] tissue factor/ luciferase fusion: 1092 0.0 
gill469266|emb|CAAS9281.1| firefly luciferase [Photinus pyr 1091 0.0 
gi|3123921|gb|AAcC40214.1| firefly luciferase [Reporter vect… 1090 0.0 
qi|17530179|ogb|AArT40735.1| protein serine kinase/luciterase-- 1090 0.0 
gi|348483 [pir] 529354 Photinus -luciferin 4 -monooxygenase (BA 519 e – 146 
gi [2133576 | pir | 529355 Photinus -luciferin 4 -monooxygenase («e 517 e – 145 
gi|478790|pir]S29353 Fhotinus-luciferin4- попоохудепаѕе (A-- 516 e – 145 
gi 1392928414 |ААС79854.1| luciferase [MMTV -luciferase repor… 463 е – 129 
01121201475 | теғ | хр 209685 1] ENSANGPO0D00003832 [Anopheles 385 е – 105 
д1 [31205637 |ref |XP 311770.1|  EMSANGPOO000014318 [ ànopheles-- 380 e -104 
gi 121355181 [reE|NP 651221 1| CG6178 - PA [| Drosophila melanoga-- 377 е – 103 m 
gi|31219007|ret|xe 316739.1| ENSANGPO00000t6100 [ Anopheles--- 371 e - 101 
gi |12229631 |5р|024145|4Ст1_ТОВАС 4-coumarate- -CoA ligase ll: 292 le-77 
(b) 


> gi |478790 | pir | 829353 Photinus - luciferin 4 - monooxygenase (АТР - hydrolysing) 
(EC 1.13.12.7) 


[similarity] - luminescent click beetle (Pyrophorus plaaiophthalmusz) 
Length = 543 


Score =5l6 bits(1329) ‚Expect =e - 145 
Identities =253,545(46% ) Positives -362.545(66€ } Gaps -5,545(0& ) 


Query: İ MEDAKNIKEGPAPFYPLEDGTAGEOLHEAMKERYALVPGTIAFTDAHIEVNITYAEYFEMS 60 
M+ EN+ GP P +PLED ТАБЕ L +А+++++ +P А р + +++Y Е+РЕ + 
Sbjct: 2 MKREKNVIYGPEPLHPLEDLTAGEMLFRALRKHSHLPQ – - ALVDVFGDESLSYKEFFEAT 59 


Query: б1 VRLAEAMERYGLNTNHRIVVCSENSLOQFFMPVLGALFIGVAVAPANDIYNERELLNSMNI 120 
ТА+++ G N + +|+ЕН+ +ЕЕ+Е++ А +IG+ МАР N+ Y EL M 1 
Shict, 60 CLLAOSLHNCOCGYEMNDVVSICAENNKREFIPIIABWYX1GMIVAPVNESYIPDELCKVMGCI 119 


4-12 BLASTP 检索 结果 报告 格式 


luciferin 4 ~ monooxygenase( Р08659 ) 被 用 做 BLASTP 的 查询 nr Ж НУ Н. Ба) а ноа А FE ЬЕ. 
zm FJ photinus - lucifenn 4 — monooxygenase 的 比 对 
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附录 4 -1 EMBL Flatfile 格式 


HSIGHAF standard; КМА; HUM; 1089 BP. 


; 00231; 


J00231. 1 


13 - JUN - 1985 ( Rel. 06, Created) 
04 – MAR -2000 (Rel. 63, Last updated, Version 8) 


Human 16 gamma3 heavy chain disease OMM protein mRNA. 


C – region; gamma heavy chain disease protein; 
gamma3 heavy chain disease protein; heavy chain disease; hinge exon; 
immunoglobulin gamma — chain; immunoglobulin heavy chain; 


secreted immunoglobulin; V — region. 


Homo sapiens ( human) 
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; 


Eutheria; Primates: Catarrhini; Hominidae; Homo. 


[1] 

] - 1089 

MEDLINE ; 82247835. 

PUBMED; 6808505. 

Alexander А. , Steinmetz M. , Barritault D. , Frangione B. , Franklin E. C. , 
Hood L. , Buxbaum J. N. ; 

"gamma Heavy chain disease in man: cDNA sequence supporls partial gene 
deletion. model" ; 

Proc. Natl. Acad. Sei. U.S. A. 79( 10) :3260 —3264(1982). 


ENSEMBL; ENSGOO0000130076 ; ENSTO000025 1006. 
GDB; 119339; IGHG3. 

СОА; PO1860. 

IMGT/LIGM ; J00231; J00231. 


5333353333 


SQ 


EAE а LEN сто 


SWISS — PROT; P01360; ССЗ HUMAN. 


The protein isolated from patient OMM is a gamma heavy chain 
disease ( HCD) protein. It has а large 5° internal deletion 


consisting of most of the variable region and the entire chl 


; domain. [1] suggests that the protein abnormality is from а partial 


gene deletion rather than from defective splicing. 
Key Location” Qualifiers 


source 1.. 1089 
/ dh, xref = " taxon 9606" 
/mol iype = " mRNA” 
/ organism = " Homo sapiens" 
/map 2" 14432. 33" 


mRNA <1.. 1089 
/note = " gamma3 mRNA" 
CDS 23. . 964 


/€odon, start = 1 
/db xref = "СОА ; PO1860" 
/ db, xref = " SWISS — РКОТ: PO1860" 
/note =" OMM protein ( Ig gamma3) heavy chain" 
/gene = " IGHC3" 
/protei id =" AAA52805. 1" 
/translalion =" MEKXLWFFLLLVAAPRWVI SQVHLQESGPGLGKPPELKTPLGDTTIH 
TCPRCPEPRSCDTPPPCPRCPEPKSCDTPPPCPRCPEPKSCDTPPPCPXCPAPELLGGP 
SVFLFPPKPKDTLMISRTPEVICVVVDVSHEDPXVOFKW YVDCVEVHNAKTRLREBEQYN 
SIFRVVSVLTVLHQDWLINGKEYKCKVSNKALPAPIEKTISKAKGQPXXXXXXXXXXXXE 
EMIKNQVSLICLVKGFYPSDIAVESWESNCOPENNYNTTPPMIDSBGSEFLYSKLTVDKS 
RWOOGNIFSCSVMHEALHNRYTQKSLSLSPGK" 

sig peptide 26..79 
/note = " OMM protein signal peptide" 
/gene =" IGHG3" 

mat peptide 80. .961 
/note = " OMM protein mature peptide" 
/gene = "ІСНСЗ" 


Sequence 1089 ВР: 240 А; 358 С; 271 С; 176 Т; 44 other; 


V 
Ei 


a am m a a m BE a 


cetggaccte 
Icecagatgg 
iccagagcte 
сааан: рі 
acctecceca 
nnneglgccca 
caaggatacc 
coacgaagae 
caagacaaag 
egtectgcac 
ccteccagec 
nnnnnnnnun 
cetggtcaaa 
Egagaacanc 
cagcaagcetc 


galgcatgag 


atgagtgeca 
lggcacglac 
clgecctgg 


cigtgcaaga 
gteotgtece 
аааасессас 
gacacacele 
lgeecacggt 
gcacctgaac 
cttatgattt. 
cennnngicc 
clgcEggagg 
caggactege 
cecabegaga 
nnnnnnnnnn 
ggcticlacc 
tacaacacca 
accgtggaca 
gctetgcaca 
tggecsgcaa 
Cccegtgtaca 


LOCUS 
DEFINITION 


ACCESSION 
VERSION 
KEYWORDS 
SOURCE 
ORCANISM 


REFERENCE 
AUTHORS 
TITLE 


£ dpi E 96р 


acalgaaaca 
agglgcacet 
ttggigacac 
ececgtgeec 
geccagagec 
tettpepgage 
eceggaeccce 
agticaagtg 
agcagtacaa 
tgaaeggcaa 
aaaccatcte 
nnnnngagga 
ccagcsacat 
срссісссаї 
agagcaggtg 
ассвсіасас 
geccccgete 


tacttcecag 


nctgtgettc 
gcaggagteg 
aactcaeaca 
acggtgecca 
caaatcttet 
ассрісарїс 
їдасрісасит 
gtacgtggac 
capeacgtte 
ggaglacaag 
caaagecaaa 
gaigaccaag 
Cgecgtggag 
gclggactec 
ECBBCABEEB 
gcagaagage 
cccgggetel 


gcaeccagea 


LLecttetee 
ggcccaggae 
tgcocacget 
gagcecaaat 
gacacacctc 
tteetetter 
tgcglgBlEg 
EBCElEgagg 
cglutggtca 
Igeaaggtct 
geacageccn 
аассааріса 
lrpgsagagca 
gacggeteot 
aacalcttct 
ctetecetgt 
CEBEPlCRCE 
iggaaalaaa 


附录 4 -2 GenBank Flatfile 格式 


AF040078 


1932 bp 


mRNA 


linear 


tggtggeage: 60 
tggggaagce 120 
geceagagec 180 
citgtgacac 240 
сесср1рєсє — 300 
ceceaaaacc 360 
tggacgtgag 420 
tgcataatgc 480 
gcgtectcac 540 
eeaacaaage 600 
nnnnnnnnnn 660 
gcctgacctg 720 
ategecagcec 780 
tcitccteta 840 
catgcteegt 900 
ctecgggtaa 960 
cgaggatget 1020 
gcacccageg 1080 

1089 


Prunus serotina ( R) — ( + ) — mandelonitrile lyase isoform MDI2 


precursor, mRNA, complete cds. 


AF040978 


AF040078.1 GI,2773273 


Prunus serotina ( black cherry) 
Prunus serotina 


Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; 


, 


Spermatophyta; Magnoliophyta; eudicotyledons: core eudicots; 


тозїйв; eurosids і; Rosales; Rosaceae; Amygdaloideae; Prunus. 
1{ bases 1 to 1932) 
Hu,Z. and Poulton, J. E. 


Prunus serotina mRNA for ( R) - ( +) — mandelonitrile [vase isoform MDLZ , 


cds 


PLN 16 - JAN ~ 1998 


#4# — EdPIEEEUEU EIE E ME 


JOURNAL Unpublished 
REFERENCE 2 (bases 1 to 1932) 
AUTHORS На, 4. and Poulton , J. E. 
TITLE Direct Submission 
JOURNAL Submitted (24 — DEC — 1997) Biological Sciences, The University of 
lowa, lowa City, IA 52242, USA 
FEATURES Location/ Qualifiers 
source 1..1932 


Z organism = " Prunus serotina" 

/mol type = " mRNA" 

/db xref = " taxon 23207" 
CDS 18..1748 

/codon, start = 1 

/ product 2 " (R) — ( +) — mandelonitrile lyase isoform MDL2 

precursor" 

/ protein id =" " 
/db xref = " GI:2773274" 
/ translation = " MVKSTMSAILVLALHLFVLHLQYSEVQSLANTSAHDESYLEFV Y 
DANDTELECTYDYHVGGGTAGCPLA ATLSANYSVLVLERCTLPTEYPNLLTSDGFTY 
NI QOEDDGOTPVERFVSGDGIDNVRGRVIGGTSMINAGV YVRANTSEENQTGIEWDMD 
LVNKTYDWVEDTIVEKPDFQFWONLTCTAFT EVGILPDNGFSLDHLEGTRLTGSTFDN 
NGTRHASDEH NKGDPNNI.RVAVHAAVEKTIIFSSDSSGVFAIGVIYTDSNGTTHQAFV 
RGDGEVILSAGPIGSPOLI LLSGVGLESYLTSLNUSV V ASHPYVGQYTYDNPRNHINI 
LPPNPIEASTVTVLGITSDEFYQCSISSLPFSTAPFGFFPNPTYPLPNTTFAHT VNKVP 
GPLSHGTVLLQSTSDVRV APNVTENYYSNTIDLAHCVSGMEKIGEFT SSDALKPYKVE 
DLPCIECFDILGIPLPENQTDDAAFETFCREAV ASYWHYHGGCLVGEVLDDDFRVYTGI 


NALRVVDGSTEPSTPASHPOGFYLMLGR Y MCTKILQOERLASEEALHKSTFEPKILESL 


ESALSFAFES" 
sig peptide — 18.. 101 
mat peptide — 102. . 1745 
/product =" (R) —- ( +) — mandelonitrile lyase isoform MDI2" 
BASE COUNT 541 а 411 е 419 g 561 t 
ORIGIN 
1 geacgagatt cagaaacatg gtgaaatcaa caalgtcagce tatactagla ttggegcetge 
61 acctttttgt ectteatctt caatactcag aggttcaate gcttgecaat acctetgcte 
121 atgattttag ctacttggaa tttgtttacg atgceaatga cacagagtte — gaaggaacat 
181 acgactatat tattgitggt ggaggaacag сарррірісс attggcagct асШрісав 
241 caaactacte gglgcttgtt clggaaaggg goactottre tacagaatat ccaaacttgt 


tgacttcaga 
aaaggltegt 
gcatgatcaa 
tlgaatggga 
ісаарссреа 
ttettecaga 
ctticgacaa 
acaacttgcg 
caggtgtgat 
ütelacgegg 
tactaettag 
clicecalec 
[gcceccaaa 
accaatgtte 
саасеіаісс 
tatetcateg 
cattcaacta 
ttgpteaalt 
tagaaggtlt 
tegaaacatt 
ісрерваррї 
atggctecac 
geaggtacat 
agicaacatt 
aaagttaatt 
Cggegcttcgg 
aattttectt 


igtaaaaaaa 


ID GRAA, HUMAN 
AC Р12544; 

DT 01-OCT-1989 (Rel. 12, Created) 
DT 01- OCT – 1989 (Rel. 12, Last sequence update) 
DT 28 -FEB -2003 (Rel. 41, Last annotation update) 


DE Granzyme А precursor (ЕС 3.4. 21. 78). (Cytotoxic T — lymphocyte proteinase 


izggtttata 
gtctggagat 
igecggggte 
calggatttg 
Htecaattt 
caacggattt 
їаасрраасс 
agttgcagtt 
agctatagga 
igacggagaa 
iggcgttggc 
ltacgtecggg 
iccaatagaa 
ааіаїсрарс 
cctgceaaal 
їасіріссід 
clactegaat 
citgagctca 
tgatatttta 
ligccgagag 
gcttgaltgat 
attecettec 
Egescactaaa 
Ccgaacecaaa 
aataaaceca 
ctctttctat 
igtgalgtic 


аа 


STANDARD; 


EEE ERG 


tataatctgc 
gglattgaca 
tacglaagag 
gliaataaga 
iggcaaaatc 
арШргас 
agacalgcat 
calgecgeag 
gltatatata 
gttatattga 
ctggagtctt 
cagtatalat 
Бссісаасір 
ILgccatttt 
acaactitcz 
cigcaatcaa 
асаасррасс 
Басрсайаа 
ggaatacoctt 
gcagtagegt 
gaittccgtg 
acaccagega 
attetgcaag 
atettggagt 
igagttctga 
cecgecaltgge 
lagtteteta 


PRT; 


agcaagaaga 
atgtaagagg 
ctaacaecte 
calatgactg 
ttacaggaac 
acctagaage 
ctgatgaact 
tagagaagat 
ctgattcgaa 
Btgcagggeec 
ассіаасаіс 
algacaatec 
tgactgttet 
сіасірсасс 
CcEcacattgt 
cetetgatgl 
tteetcattg 
aaccalataa 
tgccagagaa 
catallegca 
Hacagzggal 
gceateetcea 
aaagaltage 
cgcttgagte 
ctcaagttgg 
atggtgtacc 


aaataaataa 


262 AA. 


tgalggacag 
gagagteete 
gttetttaat 
ggttgaagac 
tgcattcttg 
aactagacte 
gcttaataaa 
catcttelct 
cggaacgact 
aattgggtec 
actpaacatl 
tcgtaattte 
aggcattara 
cttegetttt 
їаасааарії 
gagaglegct 
igttagcgge 
agtggaagat 
ecagacagat 
ttaccacggt 
caacgegttg 
gggettetat 
ttcagaggag 
арсайаїсс 
attagggttt 
tetttattte 


аїааааїаар 


附录 4 -3 Swiss — Prot Flatfile 格式 


acaccagteg 
BBlggcacga 
eaaacaggga 
actattplet 
gaggtaggta 
accggetcaa 
ggagacccaa 
tecgattcat 
calcaagcat 
ceceteaaette 
teagttgtig 
attaacattt 
арсрасіїсі 
tttcetaate 
cegggaccac 
ccaaalgtca 
atgaaeaaga 
ttgecaggta 
gatgcagoect 
ggatpgectlz 
cgtgtcgitg 
clgatgttag 
getettcata 
tttgettttg 
ageltgcaaa 
aagtttaata 


ganaceattg 


DE 
DE 
GN 
OS 
OC 
OC 
OX 
RN 
RP 
RC 
RX 
RA 
RT 
RT 
RT 
RL 
RN 
RP 
RE 
RA 
RL 
RN 
RF 
RA 
RT 
RT 
RL 
RN 
RP 
RX 
RA 
RA 
RT 
RT 
RL 
RN 
RP 
RX 


1) {Hanukkah factor) (H factor) ( HF) ( Granzyme Í} (CTL tryptase) 
( Fragmentin 1). 
САМА OR CTLA3 OR HFSP., 


Homo sapiens ( Human). 


Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; 
Mammalia; Eutheria: Primates; Catarrhini; Hominidae; Homo. 

NCBI, TaxID = 9606 ; 

[1] 

SEQUENCE FROM N. A. 

TISSUE =T - cell; 

MEDLINE = 88125000; PubMed = 3257574; 

Gershenfeld H. K. , Hershberger R. J. , Shows T. B. , Weissman L L. ; 
" Cloning апа chromosomal assignment of а human cDNA encoding a T 
cell - and natural killer cell — specific trypsin — like serine 

protease. " ; 

Proc. Natl. Acad. Sci. U.S.A. 85.1184 – 1188(1988). 

[2] 

SEOUENCE FROM М. А. 

TISSUE = Blood ; 

Strausberg R. ; 

Submitted (ОСТ — 2001) to the EMBL” GenBank DDBJ databases. 
[3] 

SEQUENCE OF 1 -23 FROM М.А. 

Goralski T. J. , Krensky A. M. ; 

" The upstream region of the human granzyme А locus contains both 
positive and negative transcriptional regulatory elements. " ; 

Submitted ( NOV — 1995) to the EMBL/GenBank/DDBJ databases. 
[41 

SEQUENCE OF 29 - 53. 

MEDLINE =88330824; PubMed = 3047119; 

Poe M. , Bennett C. D. , Biddison W. E. , Blake J. T. , Norton G. P. , 
Rodkey J. А. , Sigal N. H. , Turner R. V. , Wu J. K. , Zweerink H. J. ; 
" Human cytotoxic lymphocyte tryptase.. Its purification from granules 
and the characterization of inhibitor and substrate specificity. " ; 

J- Biol. Chem. 263:13215 ~ 13222(1988 ). 

[5] 

SEQUENCE OF 29 —40, AND CHARACTERIZATION. 

MEDLINE = 89009866 ; PubMed = 3262682 ; 


PI ARAMADI oT ENAN TEE Iad mamkrim so ire ж SE E i 


RA Hameed A., Lowrey D. M. , Lichtenheld M. , Podack Е. R. ; 

RT "Characterization of three serine esterases isolated from human IL -2 
RT activated killer cells. " ; 

КІ, J. Immunol. 141:3142 -3147( E988). 

RN [6] 

RP SEQUENCE OF 29—39, AND CHARACTERIZATION. 

RX MEDLINE 289035468; PubMed = 3263427 ; 

HA Krachenbuhl O. , Rey C. , Jenne D. E. , Lanzavecchia A. , Groscurth P. , 
RA Carel S. , Tschopp J. ; 

RT "Characterization of granzymes А and B isolated from granules of 

RT cloned human cytotoxic T lymphocytes. " ; 

RL J. Immunol. 141:3471 - 3477(1988). 

RN [7] 

RP 3D -STRUCTURE MODELING. 

RX MEDLINE -89184501; PubMed = 3237717; 

RA Murphy M. E. P. , Moul J. , Bleackley R. C. , Gershenfeld H. , 

RA Weissman L. L. , James M. N. G. ; 

RT "Comparative molecular model building of two serine proteinases from 
KT cytotoxic T lymphocytes. " ; 

RL, Proteins 4;190 —204(1988;. 

CC -! - FUNCTION: This enzyme is necessary for target cell lysis in celi – 
CC mediated immune responses. I cleaves after Lys ог Arg. Мау be 


CC involved in apoptosis. 


CC —! - CATALYTIC ACTIVITY: Hydrolysis of proteins, including fibronectin, 
CO type IV. collagen and nucleolin. Preferential cleavage: Ата — | — Хаа, 

CC PLys-| 一 Xaa > > Phe- | – Хаа in small molecule substrates. 

СС —! - SUBUNIT: Homadimer; disulfide – linked. 

CC -! - SUBCELLULAR LOCATION; Cytoplasmic granules, 


CC -! - SIMILARITY : Belongs to peptidase family S1. Granzyme subfamily. 


= — — — — — — — — — — — — — — — — — — 


CC This SWISS — PROT entry is copyright. Ít is produced through a collaboration 
CC between the Swiss Institute of Bioinformaties and the EMBI, ontstation — 

CC the European Bioinformatics Institute. There are no restrictions on its 

CC изе by non - profit institutions as long as its content is in no way 

CC modified and this statement is not removed. Usage by and for commercial 

CC entities requires a license agreement ( See http://www. ish — sib. ch/announce/ 


СС or send an email to license€ isb — sib. ch). 


PIE 2465255335 зо i iiem temen 


= — — — — — — — — — — o — — — — — — — — — — — — — — ББ 一 


DR EMBL; M18737; AAA52647.1; -. 

DR EMBL; ВС015739; ААН15739.1; -. 
DR EMBL; U40006; AAD00009.1; ~. 

DR PIR; A28943; А28943. 

DR PIR; A30525;, A30525. 

DR PIR; A30526; A30526. 

DR PIR; A31372; A31372. 

DR PDB; iHF1; 15 - OCT -94, 

DR MEROPS; 801.135; —, 

DR Genew: HGNC 4708; САМА, 

DR MIM; 140050; -. 

DR interPro; IPROO1254; Ser protease, Try. 
DR Рат; PF00089; trypsin; 1. 

DR SMART; SM00020; Tryp ре; 1. 

DR PROSITE; PS50240; TRYPSIN DOM; 1. 
DR PROSITE; PS00134; TRYPSIN HIS; 1. 
DR PROSITE; PS00135; TRYPSIN SER; 1. 
KW Hydrolase; Serine protease; Zymogen; Signal; T – cell; Cytolysis; 


KW Apoptosis; 3D — structure. 


SIGNAL 1 26 
FT PROPEP 27 28 ACTIVATIOÓN PEPTIDE. 

CHAIN 29 262 CRANZYME А. 
FT АСТ SITE 60 69 CHARGE RELAY SYSTEM (BY SIMILARITY). 
FT ACT SITE 114 114 CHARGE RELAY SYSTEM (BY SIMILARITY). 
FT ACT SITE 212 212 CHARGE RELAY SYSTEM (BY SIMILARITY). 
FT DISULFID 54 70 BY SIMILARITY. 
FT DISULFID 148 218 BY SIMILARITY. 
FF DISULFID 179 197 BY SIMILARITY. 
FT DISULFID 208 234 BY SIMILARITY. 
ЕТ CARBOHYD 170 170 N - LINKED ( GLCNAC... ) (POTENTIAL). 
FT STRAND 30 30 
ЕТ STRAND 33 34 

TURN 37 38 
FT TURN 4] 42 
FT STRAND 43 48 


FT TURN 49 51 


46, 
* 


333535333333533535333252323325352232323323353535353 


га 


STRAND 
TURN 
STRAND 
TURN 
STRAND 
STRAND 
TURN 
TURN 
STRAND 
TURN 
HELIX 
TURN 
STRAND 
STRAND 
TURN 
STRAND 
STRAND 
TURN 
TURN 
STRAND 
STRAND 
TURN 
STRAND 
STRAND 
STRAND 
HELIX 
TURN 
TURN 
TURN 
STRAND 
TURN 
STRAND 
TURN 
TURN 
STRAND 
TURN 
STRAND 
TURN 


104 
108 
112 
116 
127 
128 
130 
134 
138 
144 
147 
155 
158 
160 
165 
167 
176 
181 
184 
193 
195 
201 
206 
209 
212 
215 
219 
221 
231 


60 

62 

66 

69 

80 

84 

86 

91 
102 
105 
110 
113 
120 
127 
129 
130 
134 
139 
145 
152 
157 
159 
162 
165 
173 
180 
182 
185 
194 
199 
202 
206 
210 
213 
218 
220 
228 
232 


EXP ES 


63533535 


Жав ЕЕ ЕИ ЖЕЕ 


TURN 234 
TURN 237 
STRAND 241 
TURN 246 
HELIX 252 


SEQUENCE 262 АА;28968 MW;DA87363 A0D92BAF4 CRC64 ; 
MRNSYRFLAS SISVVVSLLL IPEDVCEKII GGNEVTPHSR  PYMVLLSLDR 
KDWVLTAAHC NLNKRSQVIL САНЅІТКЕЕР TKOIMLVKKE 
TEKAKINKYV TILHLPKKGD DVKPGTMCQVAGWGRTHNSA SWSDTEREVN 
DRNHYNFNPV IGMNMYCAGS LRGGRDSCNGDSGSPLLCEG — VFRGVTSFGL 


235 
238 
245 
249 
260 


GVYILLSKKH |. LNWIIMTIKG АУ 


KTICAGALIA 
REGCDLKLLOL 
ITIIDRKVCN 
ENKCGDPRGP 


ЖУ DNA Fa и ЖК ВЕ MEM 


第 5 


== 
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DNA 和 和 蛋白质 的 序列 生物 信息 学 


序列 生物 信息 学 (sequence bininformatics ) 是 生物 信息 学 的 基 林 内 
容 之 一 ,主要 包括 两 方面 的 内 容 : 一 是 序列 数据 库 的 建立 (参见 4.2 
435); —J& DNA 和 重 白 质 的 序列 分 析 ,主要 是 序 列 比 对 (sequencc align- 
ment) XXE IAS TIT. SEDET 2 FEL e T PUE Va fi ЯЕ TA] 
组 学 的 重要 内 容 , 目 前 已 有 两 大 类 基因 结构 分 析 软 件 。- 一 类 是 根据 基 
内 序列 报 测 基因 的 外 显 子 和 内 含 子 的 组 成 ,如 FGENES, GeneScan 等 ， 
这 类 软件 已 整合 到 常用 基因 组 数据 库 中 ,对 新 基因 进行 预测 ,一 般 根据 
HMM (hidden Makov model} 算 法 而 建立 。 画 一 -类 是 UCSC 基因 组 数据 
库 检索 中 的 BLAT TA EEA cDNA. 或 蛋 征 质 序列 得 到 其 基因 铺 
构 和 基因 组 序列 。 基 因 结 构 分 析 的 相关 内 容 在 第 3 章 中 已 作 介绍 。 序 
列 比 对 分 析 涉 及 不 同 的 算法 。NCBI 数据 库 中 的 BLAST, FASTA 是 最 
常用 的 序列 比 对 分 析 工 只, 已 在 4.5 Ф, Жа 
对 的 常用 方法 的 原理 太 其 应 用 。 

在 蛋白 质 和 基因 序列 分 析 的 早期 ,人 们 发 现 相关 重 日 或 基 内 的 序 
列 相似 ,也 就 是 说 当 把 这 些 序列 进行 比 对 叶 ,许多 对 应 的 残 基 相 所。 这 
一 发 现 很 重要 ,四 为 如 果 两 个 基因 铅 高 度 相 似 , 则 有 足够 的 理由 说 明 它 
们 之 间 的 同 源 性 。 当 然 ,这 一 点 并 不 总 是 百分之百 的 正确 。 同 源 (ho- 
mology ) 指 的 是 序列 来 自 相 同 的 祖先 ,或 意味 着 这 些 序列 具有 相同 的 进 
化 历史 ;而 序列 的 相似 (similarity) 措 的 是 两 序 列 根 据 革 种 参数 相像 ,可 
以 用 相同 残 基 的 百分比 或 是 其 他 的 方法 来 表达 。 相 亿 性 不 说 明 任 何 的 
历史 过 程 , 诠 是 对 两 个 序列 间 用 - : 定 方 法 进行 比较 。 尽 管 同 源 和 相似 
的 定义 不 同 ,但 这 两 个 术语 互相 关联 , 央 为 显著 的 相似 性 通 常 意味 着 
DES 

ВЛЕН А6 [а] 0 яй Fe 0 АЭА A. [ET Fe PR oe RT 
-个 我 们 并 不 知道 的 共同 的 祖先 序列 ,通过 反复 的 分 子 变化 而 互相 有 
差异 。 因 而 ,序列 比 对 的 目的 在 于 通过 同 源 性 和 相似 位 点 来 推测 有 关 
比 对 序列 的 进化 历 中。 使 用 相 仆 性 来 比较 蛋白 和 基因 序列 的 基础 是 基 
于 以 下 的 假设 :来 自 辐 -- 祖 先 的 序列 在 进化 的 过 程 中 逐 浙 积 累 随 机 的 


a e. X 4d fu 学 £ i 


зау, Bir EA 3 TEE AUR PALA A 3 RORE AA, A, АЗА РА АЎ Е 
因 间 进化 关系 的 重要 手段 。 有关 进 化 分 析 广 法 参见 第 8 тү. 

诬 列 比较 的 另 一 动机 是 序列 的 相似 往往 意味 着 结构 和 功能 的 相似 。 序 列 比 对 中 经 常 可 
现 到 某 些 区 域 比 另外 的 区 域 更 为 保守 ,而 提示 这 些 保 守 区 域 对 于 和 恒 白 的 结构 各 功能 更 为 关 
键 。 序 列 比 对 的 这 些 特点 为 所 比 对 的 序列 提供 重要 的 信息 ， 比 如 ,通过 对 两 人 相似 动能 的 
蛋白 质 序列 比 对 的 分 析 可 以 显示 哪 一 部 分 序列 对 于 功能 最 为 重要 - 在 那些 对 于 功能 不 重要 
的 序列 区 域 更 容易 积累 随机 的 突变 ,而 在 功能 关键 的 区 域 ,任何 突变 都 可 能 使 蛋白 质 失 去 功 
能 。 同 样 ,我 们 已 经 知道 ,如 果 两 个 蛋白 质 序列 享有 多 于 30% 的 相同 残 基 ,那么 它们 对 应 的 
二 维 结构 基本 上 总 是 非常 相似 ,因而 ,序列 比 对 通常 被 用 做 三 维 结构 比 对 的 大 致 指标 。 

序 烈 比 对 可 以 包含 两 个 或 两 个 以 上 的 序列 。 对 于 两 个 序列 的 比 对 称 为 成 对 比 对 (pair- 
wise alignment ) ,而 对 于 多 个 序列 的 比较 分 析 则 称 为 多 序列 比 对 multiple sequence. align- 
ment, МА ) 。 


5.1 成 对 座 列 比 对 


如 图 5 -1 所 示 , 成 对 序列 比 对 比较 两 个 序列 ,允许 序列 间 有 -… 定 的 错 配 ,是 计算 机 在 解 
决 生物 学 问题 应 用 中 的 - -个 经 典 问题 。 这 些 问 题 ,如 前 所 述 ,包括 比较 两 个 序列 的 相 做 性 ， 
从 数据 库 中 搜寻 相关 的 序列 ,提取 和 比较 数据 库 中 的 DNA ЖКН НЕЗ ОМА 序列 组 装 , 寻 
JQ DNA 和 看 白质 序列 中 的 元 件 。 对 于 相 做 性 最 简单 的 测量 是 序列 的 相同 程度 ,诸如 在 
DNA 序列 组 装 .相似 性 搜寻 和 序列 比 对 过 程 中 部 分 区 域 的 序列 完全 相同 。 但 更 经 常 的 是 ， 
两 个 比 对 的 序列 并 不 等 同 , 而 需要 建立 非 精确 的 匹配 。 成 对 序列 比 对 中 所 涉及 的 关键 问题 
包括 : 呈 用 来 评 佑 比 对 的 记分 系统 ; 怨 用 来 找到 最 佳 比 对 的 运算 法 则 ;号 不 同 的 比 对 方式 , 包 
揪 局 部 比 对 (local alignment ) 和 整体 比 对 (glebal alignment) 。 以 下 分 别 阐述 儿 种 常用 的 比 对 
方法 。 


5.1.1 编辑 距离 
成 对 序列 比 对 过 程 涉 及 量 和 质 两 个 方面 。 量 的 方向 是 指 用 一 个 数字 来 测量 相似 的 程 
度 , 而 质 的 方面 描述 的 是 两 个 比 对 的 序列 在 哪里 相似 和 在 哪里 不 同 。 要 理解 序列 比 对 的 这 
两 个 方面 ,我 们 需要 有 -一 种 正式 的 注解 来 描述 不 同 程度 的 相似 性 。 让 我 们 来 看 以 下 两 个 序 
列 :“AATTCCAT” 和 “AATTGGAT”。 它们 看 起 来 相似 ,只要 把 第 一 个 序列 中 的 第 5 位 的 
“C” 变 成 “G”, 便 得 到 第 二 个 序列 。 为 确定 相似 性 ,很 有 必要 来 介绍 两 个 字符 串 间 “距离 ”的 
念 。 当 两 个 字符 串 完 全 相同 时 ,它们 间 的 距离 为 零 , 而 差异 越 大 ,距离 想 大 。 确 定 两 个 守 
符 帅 间 距离 的 方法 之 一 是 找到 从 一 个 序列 变 成 男 -个 序列 所 需 的 变化 的 量 。 在 上 述 的 例子 
中 ,我 们 常 要 改变 一 个 字符 从 第 -- 个 字符 串 得 到 第 二 个 字符 串 , 寺 而 ,我 们 定义 为 一 个 替换 
( substitution) , TE PUR Я ВЕ EA 1. Hifl 36 709 АО ЕЛЕ E 516 A. ( insertion ) 和 删除 (dele- 
iony 。 当 我 们 向 -- 个 序列 加 入 字符 时 便 是 畦 人 ,而 删 去 字符 便 是 删除 。 我 们 也 可 以 把 替换 
看 做 删除 一 个 字符 ,接着 再 插入 一 个 字符 。 但 从 计算 的 角度 ,把 著 换 定义 为 一 个 变化 的 单位 


BSE DNA ЖЖ ЕМЛЕ DS ЖОР oo 


Query: 1 MEKSTMSAILLVLHLFVLLLOYSEVTHSLATTSNHDFSVURFAYDATDLELEGSYDYVIWG 60 
M K SiL + *LLL 十 N tIRF +АТП E YDY4IVG 
Sbjct, l MTKRIDSSLLYTALVWVLLLLGVVHRSNARPRVINRPPGFMRFISMATDFASEDYYDYIIWVG 60 


Query: 61 GGTEGQCPLAATLSEKYKVLVLERGSLPTAYPNVLTADGFVYNLQOEDDGKTPVERFVSED 120 
GGl-GCPLAATLEr r-VL4LERG +P PNV++ PGF+ L 1+ +Р + Е+5Е+ 
Sbjct; 6l GGTAGCPLAATLSQSFRVLLLERGGVPYNEPNVMSHDGFLTTLTDVNNFDSPAQSFISEE 120 


Query. 121 GIDNVRGRVLGGTSMINAGVYARANTSIYSASGVDWDMDLVNEKTYEWVEDTIVFRPNYOP 180 
G+ N RCREVLGG4S TINAG Y+RA+ ! бб+ WD+ ë WNe4YEWVE УЕР + 


Sbjct: 121 GVPNARGRVLOGSSAINAGFYSRADEOFFENSGLVWDLSSVNQSYEWVERAIVERPOLET 180 


Query. 181 WOSVIGTAFLEAGVDPNHGFSLDHEAGTRITGSTFDNEGTRHAADELÜLNKGN SNNLEVGV 240 
WO. A LE GV P +OF+L+H+ GT«I GETFD G RH +L S+N+RV V 
Sbjct: 18l WOTAIBDALLEVCVHPFNGFTLEHEVCTKIGOSTFDRTOGRERHSSADLLRYARSSNIRVAV 240 


Query: 241 HASVEKILIFSNAP----- GI/PATGVIYRDSNGTPHRAFVRSEGEVIVSAGTIGTPOLLLDBL 295 
Аз УЕ++ +++Р ++А GVRYRD G Н А +R +GEVT+SAG 4G«KPQLDL L 
Sbjct: 241 YATVERVLLASSPSVSGSNVSAIGVVYRDQLGRFHHALIRDRGEVILSAGALGSPQLLEL 300 


5-1 成 对 序列 比 对 
两 序列 闽 完 全 相同 的 氨基 苹 残 基 列 在 中 间 行 ,加 号 ( + ) 表 示 丰 相同 的 氨基 酸 险 性 昔 铬 记分 。Query dimer Yn, 
Sbjet 表示 与 之 比较 的 目标 序列 


根据 上 人 述 相 仅 性 的 概念 ,我 们 把 两 个 字符 串 间 的 编辑 距离 定义 为 从 一 个 字符 申 变 成 另 
一 个 字符 串 所 需要 的 最 小 编辑 操作 ,其 中 包括 插入 ,删除 和 替换 。 例如 ,在 比较 "AATTG- 
GCC” 和 "AATCGCC* 时 ,我们 可 以 通过 把 第 一 个 序列 中 的 第 4 个 字母 变 成 “C" ,然后 删除 
其 后 的 “G” , 便 得 到 第 二 个 序列 。 如 果 我 们 拒 一 个 删除 .插入 和 震 换 都 定义 为 1 ,出 这 两 个 
序列 所 的 编辑 路 离 {edit distance) 六 2。 


5.1.2 点 阵 描 图 

ЖЕ (до plot) 是 -- 种 简单 的 图 形 显示 序列 相似 性 的 方法 。 顾 名 思 义 ,点 阵 描 图 是 
对 两 个 序列 间 相 似 程 度 的 视觉 表现 。 沿 XX 轴 上 序列 1 中 的 每 - -个 单元 { 核 萌 酸 或 移 基 酸 残 
At) 与 没 Y 轴 的 第 二 个 序列 中 的 每 一 个 单元 进行 比较 ,相同 或 相似 的 区 堪 在 点 阵 描 图 中 显 
示 为 点 组 成 的 对 角 线 。 而 对 角 线 之 外 零散 的 点 为 背景 噪音 。 所 以 ,如 果 两 个 序列 在 整体 范 
围 内 都 相似 , 则 会 在 点 阵 描 贸 中 得 到 一 条 从 - -个 角 到 另 一 对 角 的 对 角 线 。 如 果 画 个 序列 只 
是 具有 有 零散 的 相似 性 ,那么 点 阵 措 图 中 看 到 的 就 是 断断续续 的 对 角 线 。 图 5 -2 显示 的 是 一 
个 点 阵 描 图 的 例子 ,比较 mandelnitrile 水 解 酶 的 两 个 同 功 酶 , MDL 和 MDL2。 在 这 一 计算 
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中 ,视窗 的 长 度 被 设置 为 20。 我 们 能 很 清楚 地 看 划一 个 对 角 线 , 表 明 这 两 个 序列 在 整体 范 
围 具有 非 党 高 的 序列 相似 。 沿 对 角 线 可 看 到 3 个 大 的 跳 贱 或 间隔 ,它们 代表 两 个 序列 中 有 
插入 或 删除 部 位 的 数目 和 位 置 。 


Dotmatcher: PSU78814 vs AF040078 
(windowsize =20. threshold =30.00 11/11/03) 


AFO40078 


图 5 -2 序章 比较 移 点 阵 描 图 
用 Dotmatcher $Cfd-( Rice et al. .2000 给 制 的 MD. [r] zi [ (GenBank PSU78814) 和 ll ( Gen- 
Bank AF040078 ) 的 氨基 酸 序列 比较 点 图 


尽管 点 阵 描 图 可 能 是 用 于 比较 两 个 序列 的 最 古老 的 方法 ,但 它 是 一 种 非常 有 用 的 方法 。 
首先 ,点 阵 描 图 不 依赖 空位 (gap) 和 参数, 而 能 很 灵 笋 地 找到 序列 间 很 微 轮 和 的 相似 。 其 次 ,点 
阵 描 图 不 依赖 伍 何 先决 条 件 , 因 而 是 一 种 可 用 于 初步 分 析 的 奋 想 工具 ,根据 点 阵 描 图 的 分 
析 结 果 , 用 户 可 以 了 解 所 涉及 的 比 对 是 整体 还 基 局 部 相似 。 局 部 相似 意味 着 在 两 个 从 整体 
看 起 来 并 不 相似 的 序 询 中 存在 小 的 相位 区 域 。 此 外 ,点 阵 找 图 通常 允许 随时 动态 地 改变 最 
高 和 最 低 界 限 值 ,可 以 用 来 摸索 区 分 信号 和 背景 标准 的 严格 程度 。 景 后 ,用 点 阵 描 图 进行 同 
一 序列 的 自身 纶 对 ,可 以 发 现 内 部 的 重复 序列 或 回 文 序列 的 基因 , 开 白 质 中 重复 的 结构 域 
( domain) ,或 是 相同 残 基 重 复出 现 的 低 复 杂 区 (low complexity), 


5.1.3 记分 模型 
当 比 较 两 个 序列 时 ,我 们 在 寻找 这 两 个 序列 通过 突变 和 选择 后 从 同一 祖先 分 化 而 来 的 
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ША ЗАА ЈЕ . 盾 人 和 和 删除。 后 二 者 比 对 通常 被 称 为 空位 。 在 我 们 讨论 记分 
模型 (scoring model) 之 前 ,我们 有 必要 了 解 一 些 术语 ,如 :下 离 ( distance ) 和 相 代 性 (similari- 
ty) e AE Br cost) .权重 (weight) 和 记分 (seore) 等 。 这 些 不 同 的 各 词 基本 上 廿 都 属 同 - -类 概 
念 ,与 序列 比 对 数值 相关 。 相 似 增加 比 对 的 分 数 ,而 空位 降低 分 数 。 也 就 是 说 ,相似 越 多 ,分 
数 城 高 。 最 佳 的 比 对 产生 最 高 的 记分 。 蛛 离 丽 数 指 的 是 给 错 配 或 空位 所 记 的 负 分 值 。 尽 管 
相似 隙 数 和 趾 离 函数 的 差 贡 在 于 对 数 秆 的 解释 ,但 其 中 的 基本 迪 辑 结构 相同 。 在 根据 整体 
序列 记分 的 副 体 比 对 中 ,这 两 个 概念 是 对 等 和 的。 代价 通 常 是 正 值 ,总 体 的 代价 应 当 力 求 最 
小 。 权 重 和 和 记分 既 可 以 是 正 值 ,也 可 以 是 鳞 人 入。 但 汉 常 使 用 的 是 用 高 分 来 表示 高 相似 。 成 
对 比 对 的 过 程 就 是 把 两 个 序列 上 下 排列 ,通过 插入 不 同 数 目的 空位 米 获 得 最 大 数目 的 相同 
竖 行 或 列 。 有 两 种 记分 系统 用 来 描述 两 个 被 比 对 序列 间 的 关系 。 -个 是 距离 的 测量 ,通常 
用 来 建立 两 个 相关 的 咎 物 序列 间 的 关系 。 通 常 我 们 用 来 秆 算 两 个 序列 间 的 进化 距离 ,也 就 
是 其 分 曾 与 共同 祖先 之 闻 的 中 离 。 田 一 记分 系统 是 相似 性 的 测量 。 趾 高 测量 给 每 一 突变 记 
分 ,两 个 序列 问 的 距离 就 匡 从 -个 序列 转换 到 男 一 序列 上 所 震 所 有 突变 的 最 小 总 值 ,而 相似 测 
HR ARP HE FI RAE TO ^ ,相似 就 是 两 序列 相似 值 的 总 和 ， 

以 下 我 丰 j 将 用 相似 测量 来 浪 示 记分 模型 在 成 对 序列 比 对 中 的 使 有 用， 相似 测量 的 基本 原理 
是 给 相同 的 字符 记 正 分 ,而 给 错 配 和 空位 记 负 分 。 如 果 我 们 几米 代表 一 个 相似 分 数 ,那么 


S= Y {SN) + Y (GE) (公式 5~1) 


RBS 是 字符 "i” 和 宁 符 “j” 配对 的 得 分 。 例如 ,一 个 "6" 核 硅 酸 与 一 个 6G” 核 车 酸 配 对 得 
正 分 ,而 一 个 "6” 与 - -个 “C” 配 对 得 负 分 .Ni 是 字符 “i” 和 ”配对 的 数目 ,G6 是 一 个 长 度 
为 站 的 空位 的 得 分 ,而 到 是 空位 的 数目 .这 种 模型 允许 灵活 地 记分 ,但 很 难 知道 什么 是 可 以 
使 用 的 正确 数字 。 通 常 这 一 模型 被 简化 ,给 所 有 的 相同 配对 记 同 样 的 分 ,给 所 有 的 错 配 和 空 
位 记 闻 样 的 分 .其 中 的 S, 用 常数 “s” sü m^ EHÉR ,表示 给 所 有 的 配对 记 同 样 的 正 分 ,给 所 有 
的 错 配 和 空位 记 同 样 的 贷 分 ,而 空位 的 代价 分 等 于 空位 长 度 的 负 值 ,也 就 是 Gt = – k. 

显而易见 ,上 述 模 型 用 于 DNA 和 蛋白 质 的 序列 比 对 有 明显 的 缺点 。 首 先 所 有 的 错 配 得 
分 相同 ,这 是 本 理想 的 。 这 - -问题 在 蛋白 序列 的 比 对 中 尤其 突出 ,因为 某 些 氨基 酸 可 被 不 同 
氨基 酸 替 换 的 频率 上 的 差别 应 当 在 模型 中 反映 出 来 。 甚 次 ,空位 的 代价 一 般 与 空位 的 长 度 
不 是 线性 关系 。 例 如 ,一 个 120 bp 的 插入 事件 不 大 可 能 是 一 个 240 bp 播 人 事件 的 2 fi, 我 
们 将 先 在 这 里 讨论 第 二 个 问题 ,而 把 第 一 个 问题 贸 到 下 一 节 。 

为 解决 上 面 的 第 二 个 问题 ,我 们 可 以 修改 以 上 模型 ,而 使 用 不 同 的 空位 记分 方法 。 已 有 
儿 种 不 同 的 方式 来 计算 修改 的 空位 记分 。 其 中 包括 Айше 襟 位 代价 .对 数 空 位 代价 利平 方 
根 空位 代价 。 其 中 Айше 空位 代价 使 用 最 广 , 它 包含 两 个 组 成 部 分 : 


G,-p*(k-1)xe (公式 5 一 2) 


其 中 ,p 为 开放 空位 的 代价 ,e 为 空位 延长 的 惩罚 ,而 站 为 空位 的 长 度 。 所 以 一 个 长 度 为 088 
宅 位 记分 为 p, 一 个 长 度 为 2 的 空位 记分 为 p+e, 而 长 度 为 3 的 空位 记分 为 p +2 *e, 如 此 等 
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Fo HEX, p 为 一 个 负数 ,而 e 为 -个 比 p 小 的 负数 。 第 一 种 方式 ,对 数 空 位 代价 使 用 以 
下 的 公式 ; | 


G= -[og( + 1) R G= - log +19] (公式 5 -3) 

对 数 空位 代价 试图 在 空位 变 长 时 ,降低 空位 的 代价 ,其 根据 是 当空 位 延长 时 ,其 相对 概 
率 的 增加 应 当 比 长 度 增 加 来 得 慢 。 第 三 种 方式 是 平方 根 (sqrt) 空位 代价 ,使 用 以 下 或 相似 
的 公式 : 


G,- -squ(k) G= -—[sqn(k+1)] 或 G= -[san(&) +1]( 15-4) 


这 3 种 方式 中 ,以 Affine 空位 代价 的 记分 增加 最 快 ,然后 是 平方 根 (sqrt) 空 位 代价 ,而 对 
数 空位 代价 增加 最 慢 。 值 得 指出 的 是 ,对 村 这 3 种 空位 代价 的 选择 仍 有 争议。 


5.1.4 Ёа 

LA E BrdEGAS B fag Ау A Ei ЛЕ АН ГЕ] ЭЁ SET TiO ВО — hin) a PE (identity matrix) 。 
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检测 弱 的 相似 性 。 央 为 已 知 的 事实 告诉 我 们 , 某 些 氮 基 酸 很 容易 被 其 他 生化 ,物理 特性 相似 
的 氨基 酸 所 兰 换 ,日 异种 序列 窒 发 现 以 来 ,已 有 许多 不 同 的 记分 模式 皱 设立 。 其 中 以 PAM 
和 BLOSUM 替换 记分 (substitute score) 模 式 使 用 最 为 广泛 。 埋 解 这 些 模 式 如 何 得 来 及 怎样 
使 用 ,有 动 于 我 们 更 好 地 使 用 订 列 比 对 的 软件 利 数据 库 控 所 (database mining) 工具。 

由 Dayhoff 和 其 同事 上 通过 研究 紧密 相似 序列 阿 的 整体 比 对 , 观察 氨基 酸 赫 换 发 生 的 
频率 而 建立 的 PAM 记分 模式 起 日 及 用 于 氨基 酸 比 对 中 使 用 最 1 的 记分 模式 。 其 所 依据 的 
进化 模型 是 ,蛋白 质 的 进化 通过 - :系列 在 群体 中 被 接受 的 独立 点 突变 ,然后 出 现在 序列 库 
(sequence pool) 中 。 在 这 一 模型 中 , 黄 个 序列 间 的 进化 距离 被 定义 为 从 一 个 序列 演变 到 另 
一 个 序列 记 需 要 的 最 少 点 突变 数 日 。 然 而 ,因为 以 下 的 原因 ,对 于 两 个 序列 间 的 兆 点 突变 总 
数 并 非 易 事 。 首 先 , 某 -一 特定 的 残 革 有 可 能 先 突变 ,然后 通过 女人 外 的 突变 又 回 复 到 原来 的 残 
基 , 由 而 隐藏 了 突变 的 效果 。 其 次 ,特定 的 位 点 有 可 能 突变 了 多 次 ,因而 ,点 罕 变 的 实际 数目 
有 可 能 比 我 们 所 能 看 到 的 要 高 。 

为 解雇 这 一 :问题 ,Dayhoff 等 提出 了 ”被 接受 的 点 窦 变 ”( accepted point mutation, PAM ) 
【这 一 术语 最 初 以 法 请 出 现 , 其 单词 的 顺序 与 英 诸 不 同 ) 的 概念 来 定 立 一 个 突变 为 进化 过 程 
中 基因 库 中 所 固定 的 突变 。 一 个 PAM 单位 被 定义 为 每 100 个 残 基 出 现 一 个 被 接受 的 点 帘 
变 。 在 识别 这 些 被 接受 的 点 突变 时 ,Dayhoff 等 把 他 们 的 分 析 限 于 序列 的 相同 百分比 在 85% 
Ы ЕА, Аа П ХО ЖЕЛЕ Y 蔡 换 的 可 能 性 等 同 于 氨基 酸 了 被 氨基 酸 导 所 蔡 
换 的 可 能 御 。 这 样 以 来 ,可 以 构建 - .个 对 称 的 20 x 20 的 矩阵 ( 注 :20 指 的 是 氨基 酸 的 种 类 
HH) 。 这 一 息 阵 的 构建 从 无 空位 的 多 序列 比 对 模 抉 (block ) 并 始 。 模 块 中 每 一 序列 对 都 足 
Ж АЫ IX 一 点 非常 重要 。 因 为 PAM 抢 阵 的 初期 日 标 是 建立 一 个 较 得 进化 时 区 中 的 过 洲 第 
阵 。 这 一 进化 时 区 很 短 , 议 致 发 生 多 次 突变 的 几率 非常 低 。 一 个 对 于 包括 没有 观测 到 的 隐 
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藏 氨基 酸 变化 的 突变 过 程 的 完整 图 像 可 通过 计算 PRSE SA ЖЕМЕЛЕП Н ERR EP 
一 所 基 酸 总 数 之 间 的 比例 而 得 到 。 这 一 数据 与 点 突变 的 数据 相 结 合 便 得 到 一 个 罕 变 儿 率 和 抢 
阵 ( 图 5 -3)。 这 样 的 矩阵 适合 于 特定 的 进化 上 离 ,但 也 可 通过 皮 复 自身 相 乘 用 来 产生 适合 
较 大 进化 距离 的 第 阵 。 在 РАМ250 ABE rp, — 15 PAM 单位 指 的 是 序列 中 196 的 氨基 酸 发 生 
突变 所 代表 的 进化 距离 。 但 这 并 不 意 昧 着 100PAM 单位 代表 氨基 酸 组 成 发 生 100% 的 变 
化 。 因 为 活 变 可 以 反复 ,因而 某 些 位 点 上 可 能 发 生 过 多 次 苦 换 。 
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5-3 РАМ250 记分 算 阵 


RUE PAM 及 从 其 演变 而 来 的 相关 矩阵 非常 有 用 ,但 其 中 的 一 些 概念 ,其 基础 已 经 受到 
挑战 。 比 如 其 中 的 假设 之 一 认为 蛋白 质 进 化 速度 在 序列 的 各 部 位 上 是 均一 的 。 现 在 看 来 ， 
这 一 假设 很 在 可 能 是 错误 的 。 因 为 很 明显 ,蛋白 质 中 保守 区 的 突变 率 较 低 而 非 保守 区 的 帘 
FERH., Henikoff 等 "! 采 用 了 对 相差 较 大 序列 的 多 序列 局 部 比 对 分 析 , 所 考虑 的 替换 是 
发 生 在 蛋白 质 的 相对 保守 区 域 ,而 不 是 整个 序列 、 相 关 序列 的 局 部 比 对 可 丰富 数据 库 ,不同 
的 进化 距离 的 比 对 通过 聚 类 分 析 的 方式 被 加 人 :两 个 在 - -定数 且 的 残 基 上 等 同 的 序列 被 聚 
上 集 在 一 起 。 如 果 其 他 更 杀 的 序列 与 序列 族 中 任何 序列 在 长 度 上 上 等同, 将 被 加 入 到 序列 艇 中 。 
一 簇 中 的 所 有 序列 被 平均 。 每 一 组 序列 用 来 计算 所 有 氨基 酸 对 的 茜 换 频率 和 计算 BLOSUM 
(blocks substitution matrix) 抵 阵 (加 和 -4)。 通 过 改变 分 开 序列 簇 的 极 阴 值 可 以 得 到 不 同 的 
SERE, iin BLOSUMSO SEE EL FH 80% 的 等 同 极限 值得 到 ,而 BLOSUM62 的 矩阵 是 用 62% 
的 等 同 极限 值 获得 ,如 此 等 等 。 这 样 , 低 值 的 BLOSUM 和 矩阵 (如 BLOSUM30 ) 适合 进化 上 高 
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矩阵 与 PAM250 最 相似 。 
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5-4 BLOSUM62 记分 和 矩阵 


全 适合 所 有 的 序列 比较 。 理 想 的 做 法 是 在 进行 单个 


似 性 搜寻 时 ,应 如 上 所 述 , 选 择 恰当 的 矩阵 。 当 比较 一 系 
,推荐 使 用 PAM250。 这 一 矩阵 在 0 ~750PAM 范围 内 提供 比 其 他 和 矩 


值得 指出 的 是 没有 一 种 矩阵 可 以 完 
的 成 对 序列 比较 或 是 数据 库 序列 相 


系 ,当做 


种 矩阵 。 低 的 PAM 矩阵 可 以 找到 短 的 


会 找到 较 长 的 弱 的 局 部 比 对 。 当 进行 非 空 位 的 局 部 比 对 时 ， 


,BLOSUM62 是 最 有 效 的 矩阵 。 


间 的 进化 关 


阵 更 为 一 致 的 有 效 记 分 。 在 数据 库 搜寻 中 , 因 为 我 们 并 不 预先 知道 序列 
部 比 对 时 建议 使 用 PAM40 .PAM120 和 PAM250 
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空位 的 BLAST 搜寻 


如 非 


最 佳 比 对 
尽管 点 阵 描 图 


3.1.3 
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,如 前 所 述 , 可 以 用 来 检测 序列 的 相似 性 ,但 也 有 其 缺点 ,如 随机 配对 造成 
序列 之 间 的 相似 性 。 因 此 ,需要 一 种 通过 点 阵 和 矩阵 找到 一 条 路 径 来 提 


` 对 角 线 不 易 被 计算 机 检测 


的 背景 噪音 
或 插入 /删除 所 间隔 的 


供 两 序列 间 的 最 佳 比 对 方法 。 这 一 方法 就 是 最 佳 比 对 (optimal alignment) 。 
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最 佳 比 对 的 主要 上 只 的 是 使 用 某 种 模型 从 所 有 可 能 的 比 对 中 挑选 具有 最 高 记分 的 比 对 。 但 
在 序列 比 对 中 ,并 没有 什么 真正 的 最 佳 比 对 ,内 为 最 住 性 总 是 依赖 卫 建 立 在 比 对 上 的 假 谨 。 例 
如 ,到 将 空位 应 当 得 到 多 少 罚 分 ? 所 有 的 序列 比 对 都 需 对 此 作 相 应 的 假设 。 让 我 们 来 看 以 下 
-一 个 极 简单 的 例子 来 比 对 两 个 DNA 序列 ;TCCG 和 TTACG。 以 下 显示 儿 种 其 可 能 的 比 对 : 


] 2 3 4 5 

TC. CG T. CEG .TCCG T.. CEG . T. CCG 
| i | i |] | | 1 | | | | | | 
TTACG ТТАСС TTACCG ТТАС. G ТТАС. G 


根据 所 选 的 模型 不 同 , 这 两 个 序列 间 的 最 住 比 对 不 止 - 种。 如 果 使 用 的 记分 模型 为 ;等 
同 配对 s =1, ES m = ~1 和 空位 g= -1, 以 上 比 对 的 记分 为 ; 


比 对 方式 1 2 3 4 5 
记分 1 110 


如 果 使 用 的 记分 模型 为 :等 同 配对 s =2, 错 配 m = -2 和 空位 g = -1, 以 上 比 对 的 记分 为 : 


比 对 方式 1 2 3 4 5 
记分 3 3 3 3 3 


如 果 使 用 的 记分 模型 为 :等 同 配对 s =3, 错 配 m = -3 和 空位 g = -1, 以 上 比 对 的 记分 为 : 


ШУЛА 1 2 3 4 5 
iust 5 5 5 6 6 


当 序 列 长 度 增加 时 ,可 能 带 有 空位 的 比 对 数 明 通常 非常 大 。 我 们 如 何 能 残 到 "最 好 ”的 
R? 手工 比 对 不 是 没有 可 能 ,但 非常 烦 珊 ,而 和 且 尝 试 每 :一 种 可 能 空位 的 方法 非常 耗 时 ,大 煞 
等 于 WY。 其 中 入 入 为 两 个 序列 的 长 度 。 显 然 ,我 们 不 可 能 对 所 产生 的 所 有 可 能 的 比 对 
来 计算 其 记分 。 即 便 是 较 短 的 序列 ,可 能 的 比 对 数目 也 是 超出 可 受 的 范围 。 因 此 ,我 们 只 
使 用 - -种 运算 法 则 来 找到 一 个 或 一 组 最 佳 比 对 。 这 种 类 型 的 运算 法 则 就 称 动 态 编 程 (dy- 
namic programming ) 。 | 

动态 编程 是 一 种 用 于 解决 某 些 优化 问题 的 常用 运算 法 则 .“ 编 程 "一 词 在 此 并 不 是 计 
算 程 序 ,而 是 一 种 在 数学 上 用 一 套 规 则 来 得 到 答案 的 行 话 。 动 态 编程 尝试 通过 把 问题 分 成 
许多 小 问题 米 解 决 。 它 使 用 的 是 - Ph“ H Fmd” (bottom 一 wp) 的 方式 ,也 就 是 说 小 问题 被 
排列 ,用 . 一 种 系统 的 方式 得 到 解决 ,而 最 终 解 决 原 始 的 问题 ， 这 种 出 下 齐 上 的 方式 比 与 其 相 
对 的 “出 上 而 下 ” (top - down) 的 方式 更 为 有 效 , 因 为 避免 了 同样 问题 的 重复 。 动 态 编程 一 般 
包括 两 个 步骤 ;中 建立 -种 递归 式 的 策略 ;人 建立 一 种 不 用 递归 的 “由 下 而 上 "的 策略 。 动 
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态 编 程 是 计算 序列 分 析 中 的 中 心 环 节 , 可 用 于 不 同方 面 。 以 下 我 们 讨论 其 在 整体 和 局 部 序 
到 比 对 中 的 应 用 。 

5.1.5.1 Needleman - Wusch 整体 比 对 运算 法 则 

整体 比 对 从 整个 序列 的 范围 比较 两 个 序列 ,适合 于 比较 在 整体 范围 内 具有 得 似 性 序列 
的 比较 。 最 早 和 著名 的 运算 法 则 为 Needleman - Wusch 运算 法 则 51 ,使 用 动态 编程 来 找到 
最 佳 序列 比 对 。 让 我 们 以 两 个 序列 天 和 了 的 比 对 为 例子 。 既 然 允 许 有 空位 ,这 两 个 序列 的 
长 麻 不 一 定 要 求 相同 : 


X: xx, "X, 


Уууу, 
ху, Й улузу. H] 的 最 佳 比 对 可 以 有 当下 3 种 可 能 ， 


1 x 与 7 配对 
2 x 与 一 个 空位 配对 
3 与 一 个 空位 配对 


Bü PG, 门 等 于 亚 序 列 zix2…x, 和 yy，…% 最 佳 比 对 的 记分 。 我 们 把 这 些 记 分 排 在 一 
个 n x m 的 矩阵 下 ,然后 将 其 用 动态 编程 来 填 满 。 如 果 使 用 线性 的 空位 罚 分 = d, F MEB 
F(0,0) = 0 开始 填 起 ,第 一 模 行 从 FOD) = -id 开始, 而 第 一 竖 行 从 F(0,) = -jd F 
始 。 也 就 是 : 


1 F(0,0) =0 
2 iX Sm В, F(i, 0) = -ixd 
3 ji SIR H,F(0,j) = - jxd 
ЖЕО НЯМ ELS КАНЫ РАА. 
F(i-l,j-1) *s(x;.) 
Fj) = СОЕ -4 (公式 5 -5) 
F(i,j-1) - d 


$— FG, Ј) 位 置 上 的 记分 建立 在 3 种 可 能 的 前 … 位 置 ; 


F(i-1,]-1) F(i-1,j) 


eio) Sa l т“ (Хз 5-6) 


К(ї-}-1) — FG, DI 


#5# DNA ж МТА В 


这 样 我 们 可 以 把 分 数 的 计算 


一 行 行 从 上 到 下 


тне еры ra. 


,一 列 列 从 左 刘 右 ,一 直到 第 阵 的 最 后 一 个 


x M уу 


-Ym 之 间 最 佳 比 对 的 记分 。 


4, 
¥ 


要 得 到 真正 的 最 佳 比 对 ,而 不 仅 是 其 记分 ,动态 编程 表 中 的 指针 记录 如 何 得 到 每 一 步 。 
也 就 是 说 ,对 每 一 个 位 置 FUOD ,都 有 一 个 指向 前 一 位 置 FGi - 1,) Т) .F(i - 1, DE 
Fli, j- DE i, MA Fin, m) 8| РОО, 0) 的 整个 路 径 可 以 通过 这 些 指 针 米 记录 。 其 中 ， 
一 个 在 对 角 六 (i, 站 上 的 指针 标志 着 zx, 和 yy 的 配对 , 朝 上 的 指针 标志 ”和 一 个 空位 的 配对 ,向 
左 的 指针 指向 ,种 一 个 空位 的 配对 。 图 5 -5 п Н m= 1.55805 = -1 和 空位 罚 
d = -i 的 记分 模型 来 为 序列 评 = АСААТССТТА 和 了 = САААСААСТТ 比 对 的 矩阵 FF 


的 建立 方法 ,并 演示 指针 在 计算 的 过 程 中 是 如 何 用 来 记录 最 佳 的 比 对 。 
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HL d Hl 
ACAATC--GTTA 
图 5 -5 整体 动态 编程 矩阵 示意 图 
їл} т ВП = -1, 空 位 d= -1( 上 方 ) 最 佳 整体 比 对 记分 为 2 下方) 


5.1.5.2 局 部 比 对 的 Smith — Waterman 运算 法 则 

38] Lm je m ,整体 比 对 的 算法 对 序列 的 整体 范围 进行 比 对 。， 然 而 ,在 许多 情 总 下 , 序 
列 间 只 有 有 限 的 相似 性 ,可 以 是 一 个 共有 的 结构 域 或 一 段 可 识别 的 相 亿 区 球 。 例 如 , 夫 结 构 
域 蛋 白 间 可 能 只 有 其 中 一 个 结构 域 相同 ,而 其 余 的 结构 域 不 同 , 碟 是 有 重复 区 域 的 序列 。 这 
些 情 形 一 般 用 Smith - Waterman 运算 法 则 来 处 理 “”。 局 部 比 对 的 目的 是 从 每 一 个 序列 中 找 
到 一 个 区 域 来 配对 ,用 懒 这 两 个 序列 问 的 最 佳 比 对 。 这 一 算法 依赖 于 一 个 使 记分 最 大 化 的 
记分 方法 ,要 不 然 空 的 比 对 总 是 产生 最 小 的 趾 离 。 这 种 沁 分 方式 与 整体 比 对 的 记分 方式 非 
常 相 做 。 与 Needleman — Wunsch 算法 相 比 较 ，Smith — Waterman 运算 法 则 的 关键 点 在 于 如 
下 所 示 的 矩阵 中 的 每 一 位 点 通过 第 4 个 冲 能 性 "0" 来 标示 一 个 新 的 比 对 的 开始 。 


rr 


or 4& ЕЕ И = = E 


gh 
Ж 0 
F(i-l,j-1) *s(x,yj) 
F(i- 1, - d 
F(i,j-1)-d 


F(i,) = max (公式 5 一 7) 


其 他 的 修改 包括 把 第 . - 行 和 第 一列 的 起 始 值 定 为 零 。 也 就 是 ; 
1 F(0,0) = O 


2 iX тї, F(i, 0) = 0 
3 了 为 1 到 a 时 , ЕО, р) =0 


在 用 此 方式 通过 动态 编程 将 第 阵 填 满 后 ,对 路 径 的 回 瞻 从 矩阵 中 数值 最 太 的 位 点 开始 ， 
这 一 -点 不 一定 是 К(п,т) ,并 县 同 瞻 到 遇 到 一 个 值 为 零 的 位 点 时 停止 ,或 一 直到 FO, 0)。 
图 S$ -6 中 显示 的 就 是 这 :一 过 入 。 其 中 与 序列 = ACAATCCTTA ЯП Y = САААСААСТТ 
比 对 相关 的 了 矩阵 的 移 建 使 用 的 是 配对 严 = 1. 错 配 s= -1 和 空位 罚 分 d = -1 的 记分 
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5-6 局 部 动态 编程 矩阵 三 示意 图 
Ёо т = 1, йоз -1, 空 位 d= СЕЛ) RERE ОПУ СР) 
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5.2 多 序列 比 对 


5.2.1 多 序列 比 对 主要 方法 和 常用 软件 工具 

除开 带 用 的 成 对 序列 比 对 之 外 ,生物 信息 学 研究 中 也 经 常 再 要 对 多 于 两 个 以 上 的 序列 
进行 同时 比 对 。 比 如 ,从 一 个 BLAST 搜寻 往往 得 到 大 量 的 相似 序列 ,要 理解 这 些 序 列 之 间 
的 相互 关系 或 基 找 出 为 所 有 序列 所 共有 的 区 域 ,方法 之 一 征 把 所 有 的 序列 逐 - :进行 两 两 成 
对 比 对 。 但 更 为 有 效 的 途径 是 能 对 这 些 序列 同时 进行 比 对 ,并 卫 把 比 对 的 结 条 放 在 一 起 。 
这 一 过 程 称 为 多 序列 比 对 (multiple sequence alignment, MSA)。 多 序列 比 对 可 用 于 DNA 序 
列 的 分 析 , 以 导 找 个 体 之 闻 单 核 茶 琶 多 态 性 (SNPs) ,外 显 子 和 基因 调节 因子 或 是 研究 相近 
物种 之 间 的 进化 关系 。 但 多 序列 比 对 更 多 的 是 用 于 重 白质 序列 ,来 册 究 序列 之 间 在 初级 序 
列 和 高 级 结构 上 的 相似 性 ,搜寻 保守 的 结构 域 或 基 序 ,以 及 研究 物种 间 的 进化 关系 (参见 第 
8 36), 4&5 -1 所 列 为 目前 MSA 中 常用 的 方法 和 相应 软件 直 具 。 


#5-1 用 于 MSA 的 常用 软件 工具 的 网 站 


名 称 来 源 
st pk EET 
CLUSTALW/X 下 载 ;ftp:/ itp., ebi. ac. uk/pub software 
Online server: http://www. ẹbi. ас. uk clustalw/ 
MSA РНЕ; http://www. psc. edu 
Fidi : http://www. ibe. wustl. eduZibe/msa. html 
PILEUP F #& tp : ZZ Tastlink. nih. gov/pub/msa 
PRALINE Elit :http://ibivu, cs. vu. nl” programs pralinewww/ 
DIALIGN ЛЕ: http://www. genomatix. de/cgi — bin dialign/ dialign. pl 
MultAlin КАЛЕ. http :// prodes. toulonse. inra. fr/multalin/mulialin. htmi 
PRRP 下 载 ;f ftp. genome. ad. jp/pub/db/hgc/sofiware/saitama — ee/ 
SAGA TAE. http: Z/¿gs — server. cnrs — mrs. ft/ ~ enored Projects home page/saga home | 
page. html 
ЖҮЛ a SB ECT 
Asset F 338 ,ftp. пе. піт. nih, gov/pub/neuwald/ asset 
BLOCKS 网 址 -hup;/Z7blocka. fherc. org blocks 
eMOTIF НЕ: http: dna. stanford. edu emotif” 
СІВВ5 下 载 :ftp, пем. пт. nih. gov/pub/neuwald/gibbs9 95/ 
HMMER TA hup ZZ hmmer. wusil. edu/ 
MACAW T ftp. псы. піт, nih. gov/pub/macaw/ 
MEME 网 http meme. sdse. edu meme/ website 
SAM HMM TAX. http ;// www. cse. ucsc. edu/research/compbio/sam. html 


5.2.2 渐进 整体 比 对 法 

5.2.2.1 CLUSTALW 

CLUSTAL 是 用 于 MSA ЖУЙЕ S EE LE gb, dp E ED VERRE) 8, ST 
Hei ЖЕ (0127 zk W) Н B: fp EE YR. CLUSTAL 最 初 由 Higgins 等 于 1988 年 创立 并 不 断 完 
ag*!. CLUSTALW 和 CLUSTALX 为 其 最 新 的 版 本 。 版 本 W A X 核心 功能 完全 相同 ,但 X 
版 具备 图 形 功 能 ,而 入 版 哥 留 以 前 的 非 图 形 平 台 。CLUSTAL 有 用 于 PC ят UNIX/LINUX F- 
台 的 各 种 版 本 。CLUSTAL 实施 的 是 整体 序列 比 对 ,方法 与 MSA 程序 不 同 。 其 步骤 是 ;中 进 
行 所 有 序列 间 的 成 对 比 对 ;加 基于 成 对 比 邓 分 数 产 生 --- 个 相 邻 连接 (参考 下 面 的 章节 ) 进 化 
树 (neighbor — join tree) ;全 根据 进化 树 提供 的 序列 间 关 系 按 顺 序 对 序列 进行 比 对 。 先 排 最 
相近 的 序列 ,再 添加 其 他 的 序列 产生 一 个 MSA 来 显示 每 列 的 序列 变异 。 初 期 的 比 对 可 通过 
- -种 与 FASTA 相似 的 较 快 的 -tuple 模型 寻找 方法 或 是 通过 完全 的 动态 编程 方法 。 其 中 
的 优化 比 对 分 数 由 强化 的 动态 编程 完成 。 在 产生 进化 树 的 过 程 中 需要 计算 序列 间 的 遗传 中 
离 (参见 第 8 章 ) 。 遗 传 距离 就 是 错 对 位 置 的 数目 除 以 比 对 位 置 的 总 数 (空位 除外 )。 

MSA 对 空位 (gap) 的 记分 方法 与 成 对 比 对 中 的 方法 不 同 。 当 新 的 序列 机 入 到 已 有 的 
MSA 中 时 ,新 积累 的 空位 会 影响 到 之 后 序列 的 比 对 。 根 据 Pascarella 和 Argos 的 研究 表明 ， 
结构 相近 的 蛋 户 质 序列 相 比 对 时 ,空位 有 选择 性 地 位 于 二 级 结 梅 单元 之 间 。 根 据 他 们 所 列 
的 与 这 些 区 域 中 每 一 种 氨基 酸 相 邻 的 空位 频率 表 ,CLUSTAL 使 用 一 种 独特 的 方法 把 空位 放 
四 在 保守 的 结构 域 之 间 。 与 其 他 比 对 程序 一 样 ,CLUSTAL xizs [z А НА Sous (ii für. FH 
户 可 以 调整 负 分 的 多 少 。CELUSTAL 的 使 用 相对 简单 ,和 W 版 使 用 菜单 形式 。 表 5 -2 举例 说 
明 每 级 荣 单 的 使 用 。 第 一 步 是 席 列 的 输 八 。 第 一 级 菜单 为 主要 功能 的 选择 ( 表 35 -2A)。 
二 级 菜单 提供 一 -级 某 单 上 每 一 功能 中 的 参数 和 其 他 选项 。 表 SS -2B 显示 MSA 的 产生 方法 。 
除非 序列 数 肯 非常 才 并 朋 机 当 相 亿 , 一 般 应 选择 慢 速 和 而 精确 的 比 对 方法 。 从 这 一 级 菜单 可 
以 进入 到 修改 MSA 参数 的 第 三 级 菜单 ( 表 5 -2C)。 有 经 验 的 用 户 可 根据 具体 的 情况 调整 
包括 空位 神 分 和 不 同 重 帕 质 权重 模式 等 多 项 傅 数 。 对 于 包含 差异 较 太 的 序 烈 在 内 的 比 对 ， 
用 户 可 以 先 使 用 缺损 参数 ,研究 其 输出 结果 。 如 果 不 满意 ,可 党 试 不 同 的 参数 ,观测 比 对 结 
果 的 改变 而 选择 最 佳 的 配套 参数 。 用 户 如 果 需 要 对 输出 的 MSA 结果 加 上 较为 易 看 ,美观 的 
框架 阴影 (BPOXSHADE) ,可 将 结果 剪接 利 拷 册 到 以 下 网 页 : http://www. ch. embnet. org/soft- 
ware/ BOX form. html ,获得 包括 jpg . rtf ps, EPS 等 多 种 格式 。 
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&5-2А CLUSTALW 一 级 菜单 
* k ж É + + Gk Жж ож ой жож R ж GR ж Gk Gk Жж ож + Жж ж Ж ож GRO GR жож ож жож жож жож жож ош ож жой 
CLUSTAL W (1.83) Multiple Sequence Alignments 


жж Ok Gk Gk Gk Gk GE Gk Gk GR Жж k Gk Жж оё ORO OR Ж жож OR SR R ож R Gk k PO ck Ж ош $ Жж GR Gk жож K ожо Ж R OR ож 


1. Sequence Input From Dise Haly ze E58 A PF 341 
2. Muhiple Alignments 多 序列 比 对 
3. Profile / Structure Alignments ? /结构 比 对 
4. Phylogenetie trees 进化 树 
S. Kxecule a system command 投行 系统 命令 
H. HELP 帮助 

X. EXIT (leave program) 退出 


Your choice. 选项 


表 5-28 CLUSTALW DRIE (MSA) 


жж жож x MULTIPLE ALIGNMENT MENU є ж ж * ж * 


1. Do complete multiple alignment now ( Slew/ Accurate) 慢 速 但 精确 的 完全 MSA 
2. Produce guide tree Ше only 只 产生 引导 树 文件 

3. Do alignment using old guide tree file [f£ РА E ЕИ FA HEITER 

4. Toggle Slow/Fast pairwise alignments = SLOW 慢 束 /快速 成 对 比 对 友和 小 开关 
5. Pairwise alignment parameters 成 对 比 对 参数 

6. Multiple alignment parameters 多 序列 比 对 参数 

7, Reset gaps before alignment? = OFF 比 对 前 重 设 空位 

8. Toggle screen display = ОМ 屏幕 显示 反复 开关 (defaul: 开 》 

9. Output format options 输出 格式 选项 

S, Execute a system command 执行 系统 命令 

H. HELP 帮助 

or press [ RETURN] to go back to main menu EE REJEB R 


Your choice; 选项 
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表 5-2C CLUSTALW 三 级 菜单 (MSA gr) 


жж жж ж ж x ж x. MULTIPLE ALIGNMENT PARAMETERS ж ж ж ж жожо ж ж * 


1. Сар Opening Penalty 打开 空位 罚 分 , 10. 00 

2. Gap Extension Penalty 空位 延伸 罚 分 :0. 20 

3. Delay divergent sequences 延 退 差异 序列 :30 % 

4. DNÀ Transitions Weight DNA DELE SE :0. 50 

5. Protein weigh matrix & АЛУА : Gonnet series 
6. DNA weight matrix DNA 权重 模式 :TUR 

7. Use negative matrix $E H THART :OFF 

8. Prolein Gap Parameters £i E {у 2 3⁄4 


(1. HELP 帮 有 其 
Enter number (or | RETURN] to exit) : 输 和 数字 或 回 车 退出 


5.2.2.2  PILEUP 

PILEUP Æ ССС 软件 包 中 的 MSA 分 析 工 具 , 使 用 的 方法 与 CLUSTAL 非常 相似 。 先 使 
用 Needleman - Wunsch 动态 编程 所 有 序列 进行 成 对 比 对 ,根据 其 记分 按 UPGMA 的 方法 产 
+ 一 个 进化 树 。 以 此 进化 椅 来 引导 最 相近 序列 和 成 组 序列 的 比 对 。 比 对 过 程 中 使 用 标准 的 
记分 和 罚 分 矩阵 ,与 CLUSTAL 相 比 ,其 主要 缺点 是 缺乏 任何 新 近 的 在 罚 分 和 记分 方面 的 改 
进 。 

CLUSTAL 和 PILEUP 都 使 用 渐进 式 整 体 比 对 方法 (progressive global alignment) ,其 缺点 
是 最 终 的 比 对 结果 取决 于 最 初 的 成 对 比 对 。 国 此 ,如 果 起 初 的 语 列 粗 似 程度 高 , 则 比 对 准 
确 ,那么 初期 的 错误 也 较 少 。 但 如 果 起 初 比 对 的 序列 亲缘 关系 较 远 , 比 对 的 错误 会 较 多 ,而 
这 些 铺 误会 在 后 期 的 MSA 中 进一步 放大 。 另 外 的 问题 就 是 所 选 的 记分 和 罚 分 的 标准 并 不 
-- 定 适合 一 组 序列 中 的 所 有 序列 。 因 此 ,其 结果 不 一 定 总 基准 确 无 误 。 用 户 有 时 需要 对 所 
得 的 MSA 进行 适当 的 手工 调整 。 


5.2.3 反复 整体 比 对 法 

为 克服 渐进 整体 比 对 的 以 上 问题 , 便 产 生 了 反复 比 对 法 (ilerative alignment) 。 其 策略 是 
在 比 对 的 过 程 中 不 断 地 重新 比 对 各 亚 组 序列 ,然后 把 亚 组 序列 雷 指 成 包括 所 有 序列 在 内 的 
整体 比 对 。 其 目标 是 要 得 到 个 最 大 的 巾 成 对 比 对 分 数 相 加 而 成 的 总 比 对 分 数 。 对 于 亚 组 
的 选择 基于 通过 与 相似 方法 产生 的 进化 树 中 序列 的 顺序 。MultAlin 程 详 在 渐进 比 对 的 过 程 
中 重新 计算 成 对 比 对 的 分 数 , 痪 整 用 来 党 善 比 对 记分 的 进化 树 ，DIALICN 程序 先 通过 在 成 
对 比 对 中 采用 对 角 点 阵 描 向 来 找到 不 包含 空位 的 局 部 比 对 区 域 .然后 我 到 一 系列 给 予 电 太 
总 和 的 吉 权 过 的 对 和 角 比 对 。 
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5.2.4 遗传 算法 

遗传 算法 (genetic algorithm) 是 一 种 由 计算 机 科学 家 发 明 的 普通 机 器 学 习 算 法 。 这 -- 方 法 
不 久 前 由 Notredame 和 Higgins 应 用 于 SAGA( sequence alignment by genetie algorithm ) 软 件 包 . 
这 一 方法 背后 的 基本 原理 是 通过 重新 安排 模拟 进化 过 程 中 空位 的 插入 和 重组 来 尝试 许多 的 
MSA ,以 达到 越 来 越 高 的 MSA 记分 。 这 方法 的 缺点 是 当 序 列 的 数 自 超过 20 时 ,其 速度 变 得 
非常 慢 。 另 一 相似 的 方法 是 通过 一 种 称 为 模拟 退火 的 概率 途径 来 调整 已 有 的 比 对 来 获得 高 
记分 的 MSA。MSASA 程序 (multiple sequence alignment by simulated annealing) 从 一 个 经 验 
的 MSA 开始 ,然后 根据 一 个 确定 增加 比 对 分 数 的 算法 来 调整 比 对 。 泪 和 传 算 法 的 成 功 可 能 归 
功 于 其 对 序列 的 调整 ,因为 有 理由 相信 这 类 事件 在 蛋白 家 族 的 进化 过 程 中 确实 会 发 后 。 


5.2.5 局 部 比 对 

以 上 所 讨论 到 的 MSA 方法 是 序列 的 整体 比 对 , 即 包 含 序 刻 的 所 有 部 分 。 局 部 比 对 {1o- 
cal alignment) 方 法 能 够 确定 序列 中 高 度 保守 的 区 域 , 并 产生 一 种 称 为 前 面 (profile) 的 记分 
符 阵 来 记录 保守 区 内 每 一 行 中 氨基 酸 替 换 的 记分 。 另 一 种 做 法 是 比 对 过 程 中 只 扫描 称 为 模 
БЕС block) 的 没有 空位 的 区 域 。 还 有 第 三 种 方法 即 不 首先 产生 比 对 ,而 是 通过 模型 挡 寻 的 统 
计 方 法 来 从 一 组 序列 中 寻找 相似 序列 区 域 。 以 下 简要 地 讨论 局 部 比 对 的 主要 方法 。 

5.2.5.1 剖面 分 析 

剖面 分 析 通 过 对 一 组 序列 进行 整体 MSA 分 析 , 然 后 把 其 中 高 度 保 守 的 区 域 提 出 ,分 成 
小 的 MSA。 从 这 些 MSA 根据 其 序列 和 结构 的 比 对 得 到 一 个 记分 矩阵 , 列 出 每 一 位 置 上 对 不 
同 残 基 的 记分 , 称 为 位 置 特 异 的 记分 表 (position — specifie scoring table) 或 叫 前 面 。 这 一 记 
分 方法 不 仅 融 入 了 Dayhoff 的 罕 变 虑 离 矩阵 ,也 代表 了 对 相似 序列 组 成 的 蛋白 质 家 族 结构 研 
究 的 结果 。 图 5 -7 显示 的 就 是 根据 组 来 自 于 不 同 生物 的 HSP70 Ж ИТ sr ТОЙЫ EH 
中 左边 第 一 列 为 共识 序 启 (consensus sequence) “ITLSTTCVCY”。 其 余 行 的 数值 表示 共识 序 
列 中 每 -位 置 被 每 _ 种 其 他 的 氨基 酸 或 空位 替换 的 几率 ,具体 为 在 实际 序列 中 每 一 氨基 酸 
出 现 的 频率 的 对 数 与 随机 频率 对 数 的 比例 。 如 果 出 现 空 位 , 则 必须 减 去 室 位 行 在 相应 位 置 
1 的 数值 。 


Cons 

I 

T 

L ü 
8 l 14 17 |3 [0-12 29 -5 -5 86-14 -9 1|]? 10 80-2 34 19 1 -8-15 4 Im 100 
T là 
T 

M 

Y 

C 

V 


5-7 对 一 组 HSP70 蛋 自 质 的 剖面 分 析 
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任何 其 他 恒 白 序列 与 此 组 蛋白 的 相似 性 可 以 通过 与 其 剖面 的 比较 用 动态 编程 的 方法 来 
测试 。 谢 面 与 常用 的 序列 比较 方法 有 两 个 主要 的 不 同 点 :中 可 以 用 任何 数目 的 已 知 序 列 来 
建立 剖面 ,因而 允许 使 用 比 成 对 比 对 方法 更 多 的 信息 ;他 齐 面 中 包括 了 对 每 一 位 置 的 插入 
或 山 除 的 罚 俘 ,而 移 许 考 虚 到 序列 的 二 级 结构 。 用 于 前 面 分 析 的 软件 工具 之 一 一 一 PRO- 
FILE -SS n[ EJ M http://www. psc. edu/ general software/ расКадев/ profiles/ al. ЖТТ) 
fik ПЕ Sas MSA 中 所 包括 序列 中 所 存在 的 变异 。 如 果 其 中 的 几 个 序列 特别 相 
但, 那么 所 得 的 齐 面 就 会 偏向 这 些 序 列 。 

5.2.5.2 模块 分 析 

与 剖面 分 析 丰 似 , 模 块 也 代表 MSA 中 的 保守 区 但 不 同 的 是 , 模 正 没 有 插入 和 删除 ,每 
一 个 位 置 上 只 有 配对 和 错 配 ,因而 每 一 个 序列 中 的 同一 模块 具有 相同 长 雇 。 模 块 的 寻找 可 
以 通过 计算 机 程序 ,如 MOTIF 程序 ,或 是 统计 方法 ,如 ASSET。 世 可 以 从 MSA 中 提取 。 
图 5 -8 显示 从 一 组 蛋 内 序列 中 所 找到 的 保守 区 , 即 模 块 。 模 块 数据 库 中 包含 从 多 达 400 个 
序列 所 组 成 的 MSA 中 提取 的 宽度 为 10 ~55 残 基 的 模块 。 有 用户 可 以 把 自己 的 序列 以 FAS- 
TA .CLUSTAL 或 MSA 的 格式 发 送 到 其 加 站 而 获得 用 户 序 列 中 所 包含 的 已 知 模式 或 基 序 。 


rhle,ecoli 


GVDVLVATPG 


RLLDLEHQNA * VKLDQV | EILVLDEADR  MLDMGFIHDI 
dbp2 schpo GVEICIATPG  RLLDMLDSNK + TNLRRV  TYLVLBPEADR  MLDMGFEPOI 
dhp2 yeast GSEIVIATPG RLIDMLRIGK + + + + TNLKRV TYLVLDRADR  MLDMGFEPQI 
dbpa, ecoli APHIIVATPG RLLDHLQKGT * VSLDAL  NTLVMDEADR  MLDMGFSDAI 
rmüáZ drome GCEIVIATPG RLIDFLSAGS * THLKEC | TYLVLDEADR MLDMGFEPOQI 

p68 numan GVEICIATPG RLIDFLECGÉ * TNLRRT TYLVLDEADR  MLDMGFEPQI 
rhlb ecoli GVDILIGTTG RLIDYAKQNH ` ^ INLGAI QVVVLDEADR  MYDLGFIKDI 
vr21 caeel RFPHIIVATPG  RLVDHLENTK * GFNLKAL KFLIMDEADR  ILNMDFEVEL 
ynm5 veast KEHIIIATPG RLMDHLENTK * GFSLRKL KFLVMDEADR  LLDMEFGPVL 
те\1 drome KVOLIIATPG RILDLMDKKV - - ADMSHC | RILVLDEADK  LLSLDFQGML 
drsl yeast REDIVIATPG RFIDHIRNSA * + SFNVDSV  EILVMDEADR  MLEEGFODEL 
1#4а rabit APHITIVGTPG  RVFDMLNRRY » « LS8PEKYI KMFVLDEADE MLSRGFKDOI 
iiH human APHIIVGTPG  RVFDMLNRRY '*LSPKYI EKMEVLDEADE MLSRGFKDOT 
vasa drome GCHVVIATPG RLLDFVDRTE " ITFEDT RFVVLDEADR MLDMGFSEDM 
srmb ecoli NODIVVATTG RLLQYIKEEN * FDCRAV | ETLILDEADR | MLDMGFAQDI 
DEAD ecoli GPOIVVGTPG RLLDHLKRGT * LDLSEL SGLVLPEADE MLRMGFIEDV 
ifáa orysa GVHVVVGTPG  RVFDMLRRQS * LRPDYT EMFVLDEADE MLSRGFEDOI 
DEAD kleon GPOIVVGTPG RLLDHLKRGT ' LDLSKL  SGLVLDEADE MLRMGFIEDV 
pl1lÜ mouse GCHLLVATPG RLVDHMMERGK ` IGLDFC  KYLVLDEADR MLDMGFEPQOTI 

954 numan TVHVVIATPG RILDLIKÉGV * + AKVDEV. QMIVLDEADK  LLSQDFVOIM 


5-8 从 一 组 蛋白 的 MSA 中 提取 保守 的 模块 


5.2.6 序列 比 对 中 的 统计 方法 


5.2.6.1 


最 大 期 望 运 算法 则 {expectation maximization algorithm , EM ) 
EM 已 被 用 来 从 无 法 比 对 的 慢 白 序列 中 寻找 保守 的 区 域 或 从 DNA. 序列 中 找到 DNA 结 
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合 位 点 。 这 些 基 序 (motif) 中 允许 空位 的 存在 。 此 法 的 步 又 是 首先 对 基 序 所 在 每 一 个 序 
列 中 的 位 置 稳 大小 进行 一 个 太 数 的 猜测 ,并 将 序列 中 的 这 些 部 分 进行 比 对 。 这 . - 比 对 提供 
基 序 中 每 一 位 置 .的 残 基 或 核 背 酸 组 成 的 大 致知 计 。 之 后 ,此 法 使 用 两 个 依次 反复 重复 的 
落 桑 。 第 一 步 称 为 期 望 步骤 ,从 上 述 已 有 的 基 序 中 通过 每 列 中 的 组 成 来 估算 每 一 序列 的 每 
一 位 置 上 找到 这 一 位 点 的 概率 。 这 些 概 率 反 过 来 用 来 更 新 位 点 中 每 一 列 上 残 基 或 核 昔 酸 的 
组 威 。 第 二 步 为 最 大 化 步骤 :使 用 以 上 所 得 数据 重复 上 面 的 步骤 ,直到 达到 每 列 的 组 成 水 再 
改变 。 使 用 上 述 方法 的 一 个 网 站 工具 为 MEME ,为 加 州 大 学 San Diega 分 校 的 超级 计算 中 心 
所 创立 。 这 个 工具 有 两 个 版 本 , 即 MEME (multiple EM for motif elicitation ) 和 ParaMEME 
( http://www. sdsc. edu/MEME/ meme/ website. html) 。 

5.2.6.2 Gibbs J&-( Gibbs sampler) 

这 一 方法 的 基本 原理 与 EM 相似 ,是 通过 统计 方法 从 一 组 序列 中 找到 可 能 存在 的 基 序 ， 
确定 其 最 佳 的 长 度 和 在 每 个 序列 出 现 的 次 数 。 但 其 算法 与 RM 18). Gibbs 抽样 包括 两 个 
步骤 。 第 一 步 贿 机 地 从 所 有 序列 中 抽出 一 个 或 几 个 作为 奸 围 序列 用 来 计算 背景 噪音 。 然 后 
对 剩 下 的 序列 随机 地 选择 假设 存在 的 基 序 的 开始 位 置 ,并 来 加 移动 其 位 置 来 寻找 最 可 能 为 
所 有 序列 所 共有 的 基 序 。 蓝 得 这 个 基 郑 的 概率 必须 高 于 背景 噪音 。 第 二 步 试图 油 整 序列 比 
对 以 获得 较 好 的 记分 ,但 保留 寻找 其 他 更 好 位 置 的 余地 。 当 在 几 个 序列 中 选择 了 基 序 的 正 
确 开 始 位 置 后 , 基 席 的 组 成 便 开 始 反 映 在 其 余 序 列 中 所 能 找 刘 的 基 序 。 最 后 是 集合 最 佳 的 
EF ,并 确定 基 序 在 每 一 序列 中 的 精确 位 置 。 这 一 方法 被 成 功 地 用 做 从 几乎 没有 相似 性 的 
序列 中 找到 30 个 螺旋 转 螺 旋 (heltix-tura-helix)DNA 结合 结构 域 和 其 他 多 个 难度 较 大 情形 下 
基 序 的 寻找 。 因 而 ,此 法 被 广泛 用 于 从 表白 序列 中 发 现 复 杂 和 可 变 的 基 序 。 

5.2.6.3 HMM 模型 (Hidden Markov Model, HMM) 

HMM 是 一 种 统计 模型 ,在 生物 信息 学 中 已 被 用 来 产生 序列 剖面 、 预 测 基 因 结 构 和 重 白 
结构 。 其 中 有 名 的 Pian 蛋白 家 族 数据 库 就 是 使 用 HMM 方法 所 建立 。 除 应 用 于 序列 分 析 
之 外 ,HMM 已 被 成 功 地 应 用 于 语音 的 识别 。 在 对 一 组 序列 进行 比 对 时 , 它 试图 考虑 配对 、 错 
配 和 空位 的 所 有 可 能 结合 情形 (图 5 -9)。HMM 分 析 从 一 组 已 知 的 相关 序列 开始 。 这 一 组 
序列 包含 20 个 或 更 多 的 序列 ,它们 用 来 训练 HMM 模型 。HMM 的 优点 是 以 很 强 的 概率 理 
论 为 基础 ,无 希 对 所 分 析 的 序列 排序 , 扰 须 考虑 搬 人 和 删除 的 罚 分 及 可 以 利用 实验 数据 信 
息 。 其 局 限 性 是 对 于 新 前 面 的 分 析 必 须要 有 以 一 组 包括 至 少 20 个 已 知 的 序列 作为 先决 条 
人 忻 。 训 练 过 程 中 包括 的 序列 越 多 ,其 分 析 的 精确 性 越 高 。 序 列 分 析 中 运用 НММ 模型 的 程 
FA Krogh 等 i 中 建立 的 SAM 和 Eddy" 创立 的 HMMER 软件 。 

5.2.6.4 住 置 特异 性 记分 三 阵 (position — specific scoring matrix, PSSM} 

对 于 序列 保守 区 的 MSA 分 析 可 以 产生 位 置 特异 的 记分 矩阵 PSSM。PSSM 的 表示 方法 
与 图 5 -7 中 所 显示 的 剖面 相似 ,都 是 用 一 个 数值 表 来 表示 每 一 个 氨基 酸 或 核 苷 酸 在 每 一 位 
置 上 出 现 的 频率 。 只 是 PSSM 直接 使 用 频率 的 对 数值 (logs ) 为 其 数值 。PSSM 可 用 来 搜寻 
用 户 序 列 以 确定 PSM 所 代表 的 序列 模式 的 最 可 能 位 置 。 另 外 ,PSSM 可 用 来 搜寻 整个 数据 
库 以 寻找 额外 的 具有 相同 模式 的 序列 。PSSM 不 仅 可 以 用 于 和 蛋白质 家 族 所 共有 的 序列 模 
式 , 也 被 用 于 寻找 DNA 序列 中 与 基因 调节 位 点 、 内 含 子 与 外 显 子 交界 区 等 相关 的 序列 模式 。 
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删除 状态 


配对 状态 


i Krogh, 1998) 


5-9 HMM 模型 示意 图 


序列 标语 是 一 种 用 图 形 来 表示 基 序 中 每 一 列 的 残 基 信息 的 方法 。 其 中 的 序列 信息 从 前 
面 所 描述 过 的 PSSM 衍生 而 来 。 和 蛋白 质 和 DNA 序列 中 的 保守 模式 都 可 以 用 序列 标语 来 表 
示 。 图 5 - 10 所 表示 的 是 Alu 插入 位 点 序列 标语 AAA GAEE RERA) o X 轴 为 模式 
中 的 位 置 ,而 Y 轴 上 字母 的 高 度 代 表 该 字母 在 此 位 置 上 出 现 的 频率 。 用 序列 标语 表示 的 模 
块 可 以 从 模块 网 站 上 获得 。 另 外 用 户 也 可 到 http ://weblogo. berkeley. edu , 8 $8 А C. BJ AOE 
绘制 序列 标语 。 
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5.2.6.5 序列 标语 (sequence logo) 


0.5 


图 5-10 序列 标语 分 析 图 


FSF DNA FE REF LEES | amana 


5.2.7 MSA 的 编辑 和 修改 

一 且 用 十 述 方 法 之 一 获得 MSA ,有 可 能 需要 通过 手工 缩 辑 瑟 得 到 更 为 合理 或 期 望 中 的 
比 对 。 在 选择 适合 的 编辑 器 时 ,应 当 尽 可 能 堆 虚 以下 因素 :中 能 利用 彩色 显示 器 来 显示 用 不 
同 颜色 代表 的 氨基 酸 来 获得 比 对 的 清晰 视觉 效果 ;多 能 够 识别 用 各 种 称 序 产生 的 MSA 格 
式 ,并 能 在 编辑 后 保持 听 有 的 格式 , 急 有 合适 的 视窗 界 曾 ,能 利用 鼠标 器 进行 序列 的 添 扣 ‚Ж 
除 各 挪动， 以 下 是 几 种 常用 的 MSA 编辑 软件 。 

(1) CINEMA (colour interactive editor for multiple sequence alignment) 这 是 一 种 广泛 
使 用 的 序列 和 点 阵 图 谱 编 辑 工具 ,由 А. ЗУ. К. Payne 等 编写 ,使 用 在 万 维 网 浏览 器 中 运行 的 
Apple ,因而 可 以 在 任何 平台 上 使 用 。CINEMA 网 页 为 http Z ыо. man. ac. uk/dbbrowser/ 
CINEMA2. 17, F ZEE HF 3j fip://ftp. bioinf. man. ас. uk/pub/ CINEMA/2. L/CINEMA2. 1 — 
default Config. tar. gz。 其 特点 包括 拖 放 功能 、 序 列 诺 称 或 右 移 .使 用 分 裂 视窗 来 显示 比 对 的 
不 同 区 域 .多 基 序 的 选择 和 操作 等 多 种 功能 。 

(2) GDE( genetice data environment) ”这 是 一 种 用 于 Unix #8 的 序列 上 比 对 编辑 和 显示 
TR. B[Mftp. ebi. ас. uk/pub/software/unix/ і Е. GDE 的 功能 已 被 加 入 到 ССС $r 
Hat, WRAP Amil EA X- Window 工具 ,也 可 以 作为 远程 用 户 使 用 GDE 的 芒 能 。 
详细 的 功能 介绍 可 参考 网 页 http ;//bimas. dert. nih. gov/gde sw. html 和 http ; www. tigr. org/ 
-Ojeisen/ GDE/GDE. html, 

(3) GeneDoe 这 是 - ` 种 比 对 的 编辑 和 显示 编辑 器 ,由 匹兹堡 大 学 超级 计算 机 中 心 的 
K. Nicolas 和 Н. Nicolas 编写 。GeneDoc 可 以 引进 其 他 格式 ,可 以 通过 插入 或 删除 空位 来 移 
动 残 基 及 拖 放 编辑 。 编 辑 后 的 比 对 可 以 进化 树 进 行 重新 计算 。(CGrneboe t] ЛА http://www, 
psc. edu/ biomed/genedoc/ 获得 ,在 微软 视窗 上 运行 。 

(4) MACAW RER js PECORE PIA ELT: — BREST EL, MACAW 从 序列 中 找到 无 定位 
板 埃 并 计算 统计 数据 。 后 期 的 版 本 允许 用 户 从 3 种 方法 中 选 祥 -种 来 找到 板块 。 还 可 寻找 
用 户 规定 的 特殊 模式 序列 。 此 软件 可 在 视窗 、 苹 果 机 和 其 他 多 种 平台 上 运行 。 可 从 http ;x 
www. nebi. пе. nih. gov/pub/software/shuler/ macaw 网 页 十 无 记名 卜 载 。 

除 此 之 外 ,还 有 类 似 如 前 面 提 到 的 BOXSHADE 等 用 于 格式 化 的 工具 ,可 以 用 来 增强 
MSA 的 视觉 效果 。 


5.3 ”多 序列 比 对 在 生物 信息 学 研究 中 的 应 用 


5.3.1 序列 结构 域 和 基 序 的 寻找 

序列 基 赔 (motif} 指 的 是 一 组 序列 所 共有 的 一: 眉 局 部 保守 区 域 或 短 的 序列 模式 。 夫 长 
度 范 围 可 以 从 数 个 到 数 百 力 至 数 于 核 背 酸 或 氨基 酸 不 等 。 但 绝 大 多 数 为 较 短 序列 。 基 序 通 
常 可 以 用 来 预测 分 子 功能 或 结构 特征 或 分 子 亲 缘 关 系 。 基 序 可 通过 多 序列 比 对 而 产生 ,可 
以 是 固定 的 序列 或 是 可 变 的 序列 。 常 通过 位 置 特 定 记 分 算 阵 和 隐藏 马克 模型 (1HMM ) 以 前 


t, 
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面 的 形式 存在 。 与 基 序 不 同 ,结构 域 是 指 一 组 序列 中 保守 的 一 段 较 长 的 序列 , 绝 天 密 数 用 于 
蛋白 质 序列 。 可 以 是 蛋白 质 分 子 序列 的 一 部 分 或 整个 分 子 。 但 有 些 较 小 的 结构 域 可 能 和 较 
大 的 基 序 交 丸 。 现 有 的 主要 与 基 序 和 结构 域 有 关 的 数据 库 包括 :CDD( conserved domain da- 
tabase}, Prosite, BLOCKS, PRINTS, PFAM (protein family}, СОС ( cluster of orthologous 
genes), ЖЕ! CDD,PFAM 和 СОС 以 结构 域 为 主 , 而 余下 的 则 主要 是 基 序 数据 库 , 参 见 第 6 
章 有 关内 容 。 


5.3.2. 基因 调节 因子 预测 

随 着 后 基因 组 时 代 的 到 来 ,我 们 对 分 子 生 物 学 的 研究 已 经 超越 对 单个 基因 序列 和 功能 
的 子 解 ,开始 探索 基因 的 调节 和 从 基因 组 的 范畴 来 理解 基因 调节 的 网 络 。 基 因 表 达 的 主 训 
调节 环节 是 转录 的 控制 。 因 而 理解 基因 调节 ,重要 的 一 步 是 确定 每 ~- 个 基因 序列 中 的 调节 
因子 ,也 就 是 基因 序列 中 用 于 与 转录 因子 或 其 他 调节 因子 结合 的 区 域 。 已 有 的 研究 结果 表 
HR ,这 些 转录 央 子 结合 区 域 往往 具有 一 定 的 序列 特征 或 称 基 序 ,而 且 具 有 一 定 的 保守 性 。 传 
统 用 于 确定 转录 因子 结合 区 域 的 方法 是 通过 烦琐 的 重组 DNA 技术 辅 之 报告 基因 在 体外 或 
体内 进行 功能 评估 来 确定 这 些 因子 所 在 区 域 的 范围 . 但 很 显然 ,用 此 法 来 确定 3 万 多 人 类 
基因 的 调节 因子 序列 是 不 现实 的 。 因 此 ,我 们 急需 - -种 高 特异 性 和 高 分 辨 率 的 方法 来 确定 
这 些 通 常 是 较 小 的 功能 性 元 件 ( functional element) 。 由 对 多 种 脊 礁 动物 间 的 序列 比较 分 析 
已 经 开始 显示 出 这 - 方法 的 可 行 性 。1Thomas ”等 在 最 近 的 研究 中 通过 对 12 种 背 椎 动物 对 
应 基因 组 序列 的 比较 分 析 发 更 了 新 的 非 编码 保守 区 。 这 些 区 域 未 能 被 实验 的 方法 和 成 对 比 
对 的 方法 所 发 现 。 在 这 一 研究 中 ,他 们 用 一 种 称 为 进化 遗传 印记 (phylogenetie fingerprint- 
ing) 的 计算 方法 来 找到 很 小 的 从 所 比较 的 序列 中 高 度 保 守 的 基因 组 区 域 。 这 些 高 度 保 守 的 
区 域 因 已 经 历 长 时 间 进 化 的 选择 而 很 可 能 具有 重要 的 功能 。 由 于 相近 物种 间 的 序列 面临 以 
背景 杂音 信号 为 主 的 问题 ,在 分 析 中 包括 亲缘 关系 较 远 的 多 个 物种 的 对 应 序列 应 有 效 地 降 
低 杂 音 。 尽 乱 到 写 稿 时 能 用 于 种 间 基 因 组 比较 的 物种 仅 限 于 人 、 小 鼠 和 太刀 ,但 根据 现 已 列 
入 基因 组 计划 的 物种 数 自 ,预计 很 快 能 扩展 到 近 10 种 之 多 。 这 种 对 多 物种 的 序列 比较 分 析 
将 为 系统 地 在 基因 组 的 范畴 上 确定 基因 的 调节 功能 单位 提供 一 个 强 有 力 的 研究 手段 。 
图 5 -11 举 俩 说 明基 因 上 游 区域 的 序列 比 对 所 发 现 的 保守 区 与 实验 所 证 实 的 包含 СКЕ 和 
E - box 等 在 内 的 增强 子 元 件 得 相 对 应 。 图 中 序列 代表 通过 对 来 自 人 、 小 也 和 大 鼠 肾 素 基 
ЕКЫ MSA 比 对 所 获得 的 保守 区 之 一 (作者 未 发 表 数据 )。 图 中 阴影 区 域 为 
实验 证 实 存 在 于 人 类 肾 素 基因 的 包含 多 个 启动 子 的 区 域 。 从 本 图 中 MSA Er US abp F]: 
域 在 此 3 个 物种 中 度 保 守 。 除 此 之 外 ,此 MSA 还 提示 ,在 此 保守 区 相 邻 的 上 游 (方程 区 ) 还 
存在 至 少 一 个 额外 的 调节 因子 多 可 供 今后 的 实验 证 实 。 


5.3.3 ”基因 组 组 装 

由 于 全 基因 组 " 乌 检 法 "在 基因 组 测序 中 的 应 用 ,在 序列 的 组 装 过 程 中 ,有 坎 于 使 用 
MSA 从 许多 的 随机 DNA 片断 序列 中 找到 相互 重 午 的 序列 而 逐渐 拼接 出 较 大 的 片断 。 与 前 
面 所 述 MSA 的 常规 应 用 不 同 ,基因 组 组 装 中 的 MSA 有 以 下 特点 :十 重 登 区 城 所 涉及 的 序列 
ЗИ СА РАНТА АЕ ,但 由 于 测序 错误 有 可 能 造成 揪 人 或 删除 。 然 而 正确 的 序列 只 有 一 种 ， 
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renin mm AATCTTGGCTTCCTCTCATGTCCCTGGGGCCACCTGTCCTTTGGECTCCCAGGCTGACGT 
renin rn ^ ---------------------------------------- TTTQ-CTTCCATGCTGACAT 
renin_hs ----------.-------------------.------ TCCACTCAECTCCCAGGCTGHTGT 
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renin mm AGTAGACACCAGGAGATGAC 
renin rn AGCAGACACCAG-AGATGAC 
renin hs GGACACTGGGAGAAGACCCT 
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renin rn TAAGTCTCTGAGTGGCT 

renin hs CAGATCCTTGGGGCCCC 
** * * 
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5-11 肾 素 启 动 子 区 MSA 分 析 结 果 
renin_hs: 人 类 肾 素 基因 ;renin_mm: 小 鼠 肾 素 基因 ; renin. m: X BUR 68 


而 不 像 一 般 的 多 序列 比 对 存在 多 种 可 能 性 。 台所 涉及 的 序列 有 可 能 是 正 向 或 反 向 ,因而 包 
括 对 互补 序列 的 比 对 。 四 序列 间 的 关系 经 常 是 长 度 未 知 的 重奏 或 是 较 大 的 序列 包含 较 小 的 
序列 。 常 用 的 商业 序列 分 析 软 件 包 通常 包括 这 类 功能 。 如 Vector NTI 中 的 Contig Express 
就 是 以 此 为 功能 。 作为 基因 组 数据 的 用 户 , 如 果 想 要 利用 基因 组 过 程 的 早期 数据 ,如 trace 
序列 , 则 需要 使 用 这 类 工具 来 获得 特定 基因 的 部 分 甚至 全 部 序列 。 这 是 充分 利用 基因 组 数 
据 的 有 效 途径 ,有 时 可 以 让 用 户 提前 数 年 获得 所 需 数据 ,因而 具有 明显 的 优势 ， 5-12 为 
基因 组 组 装 示范 图 。 本 图 演示 VECTOR NTI 软件 包 中 的 Contig Express 工具 。 右 上 框 标示 
本 组 装 包含 4 个 原始 序列 片断 (trace) ,其 名 称 和 序列 方向 均 有 标明 。 右 下 框 显示 对 应 于 上 
框 中 竖 条 所 辖区 域 的 详细 序列 。 可 见 , 第 1.、2 条 序列 来 自 同 一 区 域 而 与 第 3 条 序列 部 分 重 
登 , 而 第 3 条 序列 又 与 第 4 条 序列 在 另 一 端 部 分 重重, 进而 形成 一 个 较 长 的 组 装 层 重组 
(contig) ,其 推测 的 共同 序列 显示 于 底线 。 注 意 : 重 释 区 域 的 序列 在 第 1.2 条 和 第 3 条 之 间 
有 差异 (由 箭头 所 标记 的 位 点 ) 。 在 此 种 情形 下 ， 因为 此 区 域 属 第 3 条 序列 的 最 末端 ,为 序 
列 错误 率 较 高 区 域 ,而 男 两 条 序列 在 此 区 域 完全 一 致 。 因 此 ,应 当 以 第 1 2 条 的 序列 为 准 。 


5.3.4 系统 发 生 遗 传 学 分 析 

生物 学 中 的 问题 之 一 是 研究 生命 的 起 源 和 现今 自然 界 所 存 物种 之 间 在 系统 发 生 过 程 中 
的 亲缘 关系 或 称 为 系统 发 生 遗 传 学 ( phylogenetics ) 或 进化 遗传 学 ( 参见 第 8 章 ) 。 早 期 的 系 
统 发 生 遗 传 学 研究 大 多 依赖 于 形态 学 和 解剖 学 的 数据 ,但 自从 生物 学 研究 进入 分 子 生 物 学 
时 代 以 来 ,从 分 子 水 平 上 (DNA 和 和 蛋白质 ) 来 研究 系统 发 生 遗 传 学 便 成 为 主流 。 而 其 中 最 党 
见 的 前 期 步骤 主要 是 多 序列 比 对 。 如 图 5 -13 所 示 , MSA 中 序列 间 的 变化 可 以 用 来 推测 其 
所 代表 的 物种 间 的 亲缘 关系 。 序列 中 有 些 位 点 的 残 基 对 蛋白 质 的 功能 非常 重要 而 很 少 产生 
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5-12 MSA 用 于 基因 组 组 装 示例 


突变 。 这 些 保守 的 位 点 对 于 产生 MSA 起 关键 作用 。 相 反 , 其 他 一 些 位 点 则 对 功能 不 那么 重 
要 ,因而 有 较 高 频率 的 物种 间 变 异 。 
A PN-FLSC 
В PN-F-SC 
( PNKYLSC 
D PN-YLSC 


PNYLSC PNKYLSC PNFSC PNFLSC 


iv М 


图 5 -13 MSA 用 于 系统 发 生 遗 传 学 分 析 


系统 发 生 遗 传 学 研究 中 要 考虑 的 问题 包括 大 多 数 物 种 在 起 源 上 的 复杂 性 。 一 般 情况 
下 ,基因 组 的 一 部 分 基因 由 正常 的 生殖 周期 进行 垂直 遗传 ,而 另外 的 部 分 可 能 由 包括 病毒 、 
DNA 转化 .共生 等 多 种 机 制导 致 的 基因 水 平 转移 ( Horizontal gene transfer) 而 来 。 使 用 水 平 
转移 的 基因 序列 会 扰乱 系统 发 生 遗 传 学 的 分 析 。 基 于 以 上 原因 ,用 于 系统 发 生 遗 传 学 的 基 
因 最 好 具备 以 下 特点 :基因 普遍 存在 于 绝 大 多 数 物种 而 且 容 易 通 过 其 序列 的 保守 性 被 识别 。 
与 此 同时 ,这 些 基 因 序 列 应 当 有 足够 的 变异 来 区 分 亲缘 相近 的 物种 。 在 已 知 的 DNA 序列 中 
有 两 类 分 子 符合 上 述 条 件 ,携带 大 量 的 种 间 变 异 而 被 广泛 用 于 系统 发 生 遗 传 学 的 研究 :核糖 
Ж RNA(rRNA) 小 单 体 和 线粒体 序列 。 现 有 的 普遍 公认 的 细菌 进化 树 大 多 是 根据 16SRNA 
序列 而 建立 ,而 线粒体 序列 较 多 被 用 来 研究 灵 长 类 的 进化 。 

除 研 究 物 种 间 的 亲缘 关系 之 外 ,MSA 和 由 其 衍生 的 关系 树 可 以 用 来 探讨 同一 基因 组 中 
同系 基因 (paralogous genes) 间 的 进化 关系 或 较 大 蛋白 家 族 内 的 分 类 !5”) 。 在 此 情形 下 ,使 
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用 的 序列 通常 为 电 白 质 序列 。 这 类 分 析 可 以 用 于 预测 重 白 的 功能 和 进化 关系 。 
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本 章 是 在 第 S 章 详 细 介 绍 蛋 白质 序列 分 析 的 基础 上 ,进一步 介绍 
蛋 蝗 质 结构 分 析 方法 。 第 2 章 中 ,我 们 已 经 知道 ,蛋白 质 结构 可 分 为 一 
级 ,二 级 ,三 级 和 四 级 结构 ,这 是 蛋白 质 结构 分 析 的 基础 {详细 内 容 希 
望 读 者 参考 其 他 生物 化 学 教材 中 有 关 和 蛋白 质 结 构 的 论述 ) 。 在 已 知 的 
大 量 重 白质 实验 数据 的 基础 上 ,通过 和 牛 物 信息 党 方法 建立 相应 的 蛋白 
质 结构 数据 库 , 并 进一步 比较 和 分 析 其 结构 特点 ,归纳 总 结 出 结构 神 
型 ,编写 出 相应 程序 ,在 反复 验证 的 基础 上 ,用 于 新 的 蛋白 质 的 结构 预 
测 ,这 便 是 目前 生物 信息 学 最 具 挑 战 的 领域 之 一 , 随 之 诞生 出 生物 信息 
学 的 重要 分 支 结构 生物 依 息 学 { structural bioinformaties ) 。 

结构 生物 信息 学 是 在 原子 和 亚 细 胞 空间 水 平 重 点 讨论 生物 大 分 子 
结构 信息 的 表达 、 储 存 .检索 .分析 和 和 显示 方法 。 结 构 生 物 信息 学 的 目 
标 有 一 :一 是 建立 生物 大 分 子 信息 处 理 的 通用 方法 ,二 是 利用 这 些 方法 
解决 生物 学 中 的 问题 和 得 到 新 的 预测 性 知识 。 由 于 近年 来 高 通 量 分 析 
技术 的 应 用 和 大 量 生物 大 分 子 结构 数据 的 出 现 , 大 大 加 快 了 结构 生物 
信息 学 的 发 展 ,也 使 得 生物 学 看 更 高 的 层面 进行 分 析 , 如 结构 模型 的 建 
М ,宣扬 质 新 功能 的 预测 .药物 靶 向 设计 .分 子 模拟 等 。 正 是 基于 这 些 
结构 分 术 的 基础 ,许多 生物 现象 可 以 进行 直 视 (visualization) .分 类 
( classification) „ИШ ( prediction) 和 模拟 (simulationy。 由 于 分 子 结构 
所 得 到 的 数据 往往 是 非 线性 的 ,其 空间 变量 又 是 连续 性 的 ,加 之 相 芝 作 
用 分 析 中 需 引 入 许多 重要 的 物理 学 原理 ,以 及 3D 模型 建立 中 的 图 形 
处 理 与 分 子 模拟 的 复杂 性 等 ,使 得 结构 生物 信息 学 较 传 统 牛 物 信 息 学 
中 所 用 方法 和 模型 更 具 挑 战 性 '"!。 本 章 将 结合 蛋白 质 结构 分 析 常 用 
方法 盖 述 结构 生物 信息 学 的 基本 内 容 及 其 应 用 。 


6.1 线 白 质 基本 特性 分 析 
通常 在 获得 蛋白 质 一 级 结构 后 ,可 对 其 基本 特征 (参数 ) 进行 分 
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- 析 , 包 括 分 子 质量 .分子式 Н ка AERAR IE ЖС HOKE .稳定 性 等 物理 .化 学 


特 和 社 ， 最 常用 的 分 析 软 件 是 ProtParam (http: // ив, expasy. org/tools/ protparam. himl), iE 
“Г Ep steep S CLR A DOES Y: f 8E EZ TR РА Л AE КЕРТЕ АЛЕКЕ ТИН 
Sc HA SE RHE SE X LEE Aak PREA REES Aiti BUT АКЛЕН 
S Sha h ЖЕТ НЕГ Br А, EE TAS EV ER 


6.2 ERE RI EHE SH Cr AH T 


蛋白 质 结构 域 (domain) 是 结构 生物 学 BEF .生物 化 学 和 进化 生物 学 中 的 重要 和 概念: 
在 不 同学 科 中 ,其 定义 常 有 所 不 同 。 结 构 生 物 学 中 结构 域 被 定义 为 多 肽 链 上 那些 可 折 王 为 
球状 丫 构 的 特殊 片段 ,并 发 控 特 殊 的 生物 学 功能 。 但 在 遗传 学 上 结构 域 常用 来 表示 基因 中 
发 挥 某 种 功能 的 最 小 片段 。 基 序 (motif) 通常 是 指 重 白质 机 后 作用 中 最 小 的 功能 单位 ,一 般 
位 于 球形 蛋白 质 的 表面 。 结 合 部 位 (binding site) MEEA SE Pa e Hi Bo Her А 
位 ,通常 是 一 个 或 儿 个 氨基 酸 残 基 。 不 同 绰 白质 之 间 相 同 或 相近 的 结构 域 被 称 做 模块 
(module) 。 据 知 计 ,人 类 基因 组 中 含 1 000 -6 000 个 这 种 模 鼎 ,模块 可 独立 存在 于 一 些 较 
小 的 异 白 质 之 中 ,也 可 与 其 他 模块 一 起 存在 于 多 肘 链 上 ,这 通常 是 由 于 基因 的 触 合 所 引起 
By. 一 组 模块 常 共 同 表 达 , 存 让 于 同一 细胞 或 下 细胞 天 中 模块 问 的 相互 作 几 是 和 蛋白 – 8 
白 相 互 作用 的 基础 。 后 基因 组 时 代 的 任务 之 -是 在 系统 生物 学 水 平 解析 这 些 模 块 及 其 相互 
作用 ,从 而 更 好 地 惠 解 重 户 质 的 生物 学 功能 。 

蛋白 质 结 柳生 物 傅 息 学 的 任务 之 一 伍 是 通过 已 有 的 蛋 摇 质 3D 实验 数据 和 其 他 已 知 的 
功能 信息 ,建立 结构 域 的 数据 库 和 相应 预测 模型 。 最 初 阶段 ,结构 域 的 鉴定 是 通过 直观 和 作 
图 分 析 拆 分 出 不 同 结构 域 的 界限 。 其 出 发 点 是 基于 这 样 - :个 捉 实 ; 结 构 域 内 的 原子 间接 触 
要 比 结构 域 间 的 原子 接触 更 紧密 。 当 然 ,完全 套用 这 个 异 式 也 会 带 来 - 些 误 差 。 结 构 域 分 
析 的 算法 研究 自 20 世纪 70 ZEIT BA ,经历 了 厂 原 子 间 的 共 价 结合 . 侧 链接 触 等 物理 .化 学 
模型 和 聚 类 分 析 . 主 成 分 分 析 等 统计 模型 ,到 理论 图 形 方 法 等 不 同 的 发 展 阶 段 。 要 统一 一 -种 
标准 用 于 结构 域 分 析 是 很 困难 的 。 结 构 域 分 析 的 主要 数据 来 源 于 SCOP 和 CATH 等 结构 分 
类 数据 库 ! 和 参见 6.8.2 节 )。 通 过 PredietProtein. (http: // cubic. Нос, columbia. edu/predicpro- 
tein) 服务 器 可 获得 有 关 结构 域 . 基 序 和 结合 部 位 的 太 部 分 信息 。 


6.3 ”蛋白 质 拓扑 结构 . 折 蔡 和 三 维 结构 模型 


当 观 察 一 个 蛋白 质 的 ЗО 模型 时 ,总 会 发 现 … 些 重复 出 现 的 有 规律 的 纸 构 ,如 螺旋 或 线 
性 结构 。 由 3D 模型 来 推 类 这 种 次 级 结构 特征 ,并 建立 相应 的 模型 来 预测 这 种 次 级 结 梅 特 
征 是 目前 结构 生物 信息 学 的 热点 之 一 。 这 些 次 级 结构 特征 的 主要 用 途 有 :人 fior Ur t r 
式 ; 名 蛋白 质 结构 视 观 中 的 直觉 方 式 ;名 影响 序列 的 比 对 ;中 与 功能 密切 相关 。 利 用 生物 入 
息 学 方法 建立 一 个 好 的 次 级 结构 分 析 程 序 , 既 能 与 已 知 结构 保持 一 致 ,又 能 较 准 确 地 预测 未 
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知 蛋白 质 的 结构 和 功能 ,这 是 结构 生物 信息 学 的 重要 挑战 领域 之 一 。 目 前 已 建立 的 程序 中 ， 
DSSPL5 ( http : // www. cmbi. kun. nl/gv/dssp) Je xxt 3D 模型 推断 和 预测 次 级 结构 最 好 的 程 
序 之 一 , 它 是 基于 骨架 之 间 的 氢 键 模型 建立 的 程序 ,这 也 是 通过 解析 a - 螺旋 和 B- FEB 
(参见 图 6 - 1) 不同 状态 间 形 成 氢 键 的 方式 而 推断 。 


t Parallel 


` > 
: :Antiparollel 
} di 


图 6-1 蛋白 质 二 级 结构 中 的 a- Siu B - 片 层 结构 示意 图 


由 和 蛋白质 1р 预测 3D 是 结构 生物 信息 学 工作 者 面临 的 一 大 挑战 ,是 CASP( Critical 
Assessment of Structure Prediction ) 总 结 有 关 结 构 预 测 方法 领域 中 取得 的 重大 进展 。 从 1994 
年 以 来 ,CASP 每 隔 2 年 更 新 一 次 ,到 2002 年 ,已 运作 到 САЅР5. CASP 主要 针对 蛋白 质 折 等 
预测 方法 的 评估 而 建立 。 总 体 而 言 , 现 有 的 关于 蛋白 质 拓扑 结构 . 折 笃 方式 和 3D 结构 的 预 
测 ,其 准确 性 约 70% 左右 。 

蛋白 质 的 折 竹 预测 方法 主要 分 为 3 类 : 同 源 性 模型 (homology modeling) JT ë 1.9 ( fold 
recognition) 和 从 头 开 始 折 又 ( ab initio folding) 。 同 源 性 模型 是 根据 同 源 蛋白 质 的 结构 分 析 
得 到 有 关 结 构 域 和 相应 的 结构 特征 ,再 预测 其 折 秋 方式 ,是 目前 蛋白 质 3D 结构 预测 中 最 常 
用 的 方法 。 折 对 识别 又 称 反 向 蛋白 折 对 (reverse protein folding) ,将 待 分 析 蛋 白质 序列 作为 
查询 单位 ,查找 几 种 常用 的 折 笃 数据库, 如 SCOP CATH 和 DALI 等 (参见 6.8.2 45) ,再 对 其 
3D 结构 进行 预测 。 从 头 开 始 折 释 是 直接 根据 蛋白 质 序列 的 理化 特征 预测 其 构象 的 方法 。 


6.3.1 同 源 性 模型 

从 实验 所 得 到 的 蛋白 质 模型 结构 ,经 计算 机 处 理 并 存储 于 数据 库 ,便于 研究 者 查询 和 比 
较 , 这 无 疑 是 进一步 研究 该 蛋白 质 功 能 和 进行 药物 靶 向 设计 的 理想 工具 。 事 实 上 ,就 人 类 基 
因 组 而 言 , 新 基因 尚 在 不 断 发 现 之 中 ,其 结构 尚未 测定 。 即 使 对 于 那些 已 发 现 的 基因 ,特别 
是 当 它 们 编码 一 些 大 分 子 质 量 蛋 白质 的 时 候 , 现 有 的 技术 如 晶体 结构 分 析 和 NMR 技术 , 尚 
难以 对 其 结构 进行 测定 。 这 时 主要 依靠 结构 生物 信息 学 方法 对 其 3D 结构 进行 预测 。 同 源 
性 模型 是 目前 常用 的 3 种 3D 结构 预测 方法 中 最 简单 也 最 常用 的 方法 ,是 结构 生物 信息 学 
工作 者 必须 掌握 的 基本 方法 。 其 基本 原理 有 两 点 :结构 是 由 序列 所 决定 ;@ 进 化 过 程 中 ， 
结构 上 的 变化 相对 序列 变化 更 缓慢 。 也 就 是 说 ,相似 的 序列 往往 会 得 到 相似 的 结构 ,进化 上 
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假定 我 们 想 知 道 一 个 含 150 个 氨基 酸 的 重 白质 (A) 结 构 , 我 们 首先 将 该 序列 与 PDB 数 
据 库 中 的 巨 知 央 列 进行 比较 (例如 用 BLAST) 。 幸 运 的 话 ,我 们 发 现 待 分 析 序 列 (4) 与 PDB 
中 的 -个 会 300 ARRIEN B) ARA A 和 多 的 相同 性 。 这 时 从 PDB 中 调 出 B 
序列 ,将 癌 源 区 切 谢 出 来 ,并 将 不 相同 的 氨基 酸 残 基 位 置 进行 突变 替代 ,这 样 便 得 杀生 序列 
的 预测 模型 。 总 结 一 下 ,中 将 同 源 性 模型 的 分 析 过 程 归 纳 为 以 下 步骤 ;(D 模板 识别 和 比 对 
Т: О) НОТЕ: 骨架 产生 ;也 坏 状 模 型 ;加 MER: O 模型 优化 ;外 模型 确认 。 在 
以 上 分 析 中 ,常用 的 程序 分 别 有 : 

(1) FASTA 或 BLAST( 详 匈 第 4 3X) ; 

(2) CLUSTALW(IÉIA: 5 È), 

(3) SWISS ~ MODEL( http: A www. expasy. ch/swissmod/SWISS – MODEL. html) ; 

(4) MODBASE(http: // guitar. rockefeller. edu/modbase ) ,. 
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原因 可 能 是 :中 赵 异 进化 ( divergent evolution》, 即 本 来 由 关 的 蛋白质 ,进化 过 程 中 序列 变化 
较 太 ,但 其 折 雪 方式 变化 不 大 ;加 HEHE i convergent evolution) , 即 由 于 功能 土 的 需要 , ZH 
能 相同 或 相近 的 蛋白 质 其 结构 具有 相似 性 ;@ 序列 变化 千 千 万 万 ,但 折 秋 方式 上 思 指 可 数 , 导 
致 不 相关 的 蛋白 质 ,此 折 秋 结构 也 具有 某 种 相 仁 性 : 寺 折 双 分 类 方法 的 错误 ,产后 结构 的 相 
似 性 , 即 得 到 所 谓 假 阳性 结果 。 现 有 的 折 芋 数据库 如 SCOP .CATH DALL 和 FSSP 等 (参见 
6.8.2 上 入) 采用 不 同 的 案 类 方法 。 这 些 数 据 库 蚌 折 又 识别 的 基础 。 折 著 识 别 中 先 对 符 分 析 
序列 查 痢 这 些 数据 库 , 找 到 相关 折 释 方式 和 序列 , 青 将 待 分 析 序 列 的 结构 拼接 。 折 看 识 别 党 
用 的 程序 或 方法 包括 PSI - FASTA, HMM .SAM .THREADER .3D — 1р ,123D 等 。 


6.3.3 ар initio 5r 
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并 满足 最 小 化 原理 , 即 天 然 状 态 了 自由 能 最 低 , 所 形成 的 构象 空间 所 带 要 的 自由 能 也 应 该 是 
是 低 。 这 种 分 析 方 法 的 重大 挑战 在 于 建立 较 精 确 的 预测 和 寞 型 。 多 肽 链 了 画像 representa- 
tion) „ЗВЕР ( potential function) HW R ( coarse searching) 等 是 常用 的 预测 方法 。 这 些 
方法 也 被 用 于 基因 组 的 组 装 分 析 利 结构 基因 组 分 析 。 
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6.4.1 RARAHI | 

蛋白 质 结构 视 观 (visualization) 是 在 实验 测定 其 结构 或 通过 结构 生物 信息 学 进行 结构 预 
测 的 基础 上 ,对 蛋白 质 结构 利用 计算 机 图 形 朴 理 方法 显现 中 来 ,便于 研究 人 员 对 其 二 维 或 二 
维 结构 有 一 -感性 认识 ,更 重要 的 是 有 助 于 理解 蛋白 与 蛋白 或 其 配 体 的 相互 作用 。 因 此 和 扯 白 
质 结构 视 观 和 分 子 模拟 是 研究 蛋白 质 复合 体 , 代 谢 途 径 、 酶 动 忆 学 和 药物 设计 等 的 重要 
工具 。 

蛋白 质 结构 视 观 形式 主要 分 为 原子 代表 模型 (atom representation) ,摘要 观察 (abstract 
view) 和 表面 观察 (surface view)3 种 ,分 别 以 RasMol, MolSeript 和 AVS 为 代表 。 最 早 的 结构 
视 观 出 现 于 20 世纪 60 年 代 末 ,伴随 计算 机 图 形 处 理 软 件 和 程序 的 发 展 , 视 观 形式 种 效果 有 
了 很 大 的 改进 ,并 逐渐 引 人 动 态 视 观 效果 。 电 前 已 出 现 许 和 多 相应 视 观 软件 和 网络 服务 器 。 
基本 上 是 根据 结 梅 数 咒 库 中 已 有 的 模型 ,编译 相应 的 视 观 程序 。 大 致 分 为 3 类 ;模型 建立 、 
模型 查询 和 结构 呈现。 结构 呈现 软件 中 最 流行 的 是 RasMol( http: A/ www. nmass. edu/micro- 
bio/rasmol/) ,已 与 PDB 链接 。 表 6 - 1 所 列 为 目前 常用 的 蛋白 质 视 观 软件 "| 。 


表 6 -! 目前 常用 的 强身 质 视 观 软 性 


软件 名 称 ”功能 评价 优点 缺点 操作 平台 
AVS 2h % Ж ШЕН Ел, АН ВА, В Linux, SGI, Unix 
询 和 呈现 。 用 的 软件 多 个 模块 ,可 进行 ” 作 复 茶 ,不 易 掌 


多 种 数据 分 析 所 
Chimera 用 于 基 功能 齐全 的 讽 观 非常 灵活 ,功能 РЕЛЕ Р, NI4.0，W2000， 


本 的 模型 软件 强大 ,适合 多 种 数 ” 尚 在 完善 之 中 Unu, ӘСІ, Unix 
建立 .查询 据 资料 
和 呈现 


MICE 用 Java ЖРА, 通过 ID ul ie 需要 Java3D NT4.0, W2000, 
语言 编译 可 进行 合作 研究 AB PDB 中 的 所 程序 支 桂 , 某 些 Linux, SGI 


的 结构 呈 让 数据 操作 平台 无 法 
现 程序 运行 ,查询 功能 
Xm 


MolSeript 结构 呈现 显示 图 形 和 相 程序 命令 丰富 ， Fekal Linux, SGI, Unix 
HEX. Bohseript НЗ В, а 
НН IR 进行 预览 


sÍ 
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*6-1 
软件 名 称 ”功能 评价 优点 Bus 操作 平台 
0 电子 密 ”功能 强大 的 模 非常 全 而 的 模型 ”不易 掌握 NT4.0, SGL 
度 图 像 和 型 建立 软件 建 宁 功能 ,也 上 县 有 
模型 建立 жи pr] ЈЕ а JI 
能 ,具有 灵活 性 
Quanta ”模型 建立 工业 用 户 常 用 功能 强大 friem a, SGI 
mr] SE АЗ E yr Au E f£FEEIH 
| КК 
ОшсКРОВ 结构 查询 用 Java 编译 的 网 络 浏览 ,可 同 ”非常 简单 їй ЕТИ, 
显示 结构 和 序列 时 显示 序列 
的 工具 
RasMol ”结构 呈现 功能 齐全 的 结 ”操作 简便 ,回应 — 一 次 仅 显示 ”适合 各 类 计算 机 
Ty XX XE iX Pp, 快捷 ,功能 他, mE 一 种 结构 ,图 形 
Chime 为 其 商业 示 方 式 名 样 , 源 程 ”效果 差 
版 ,可 在 Netscape FEAH, АННА 
中 操作 , RasTop 是 ”自行 维护 
为 Windows 用 户 
设计 的 增强 版 
VMD 结构 分 包括 各 种 分 子 鼠标 控制 ,使 用 在 一 些 图 形 Linux, SGI, Unix 
т, 动力 党 模型 , 适 会 ”方便 功能 较 差 的 计 
主要 是 分 一 般 用 途 的 交互 算 和 机 上 显示 很 
子 动力 学 观察 慢 
WebMol 用 Java tu pE i) Fel E id 网 络 浏览 ,可 从 aos bu 适合 各 类 计算 机 
诸 言 编译 示 软 件 URL 上 载 结构 一 
BEROEN 
NIF 


6.4.2 蛋白 质 分子 模 拟 
通过 晶体 分 析 和 NMR 获得 的 蛋白 质 结构 模型 是 静态 的 ,但 其 生物 学 功能 的 发 挥 在 结 
构 上 经 历 不 同 状态 的 动态 变化 ,这 往往 涉及 不 同 生理 条 件 下 能 量 的 变化 和 和 蛋白质 折 秋 形态 
的 变化 。 通 过 体内 直接 观察 这 种 结构 的 动态 变化 并 记录 下 来 往往 很 困难 。 蛋 白质 分 子 模拟 
(simulation) 就 是 通过 计算 机 分 析 蛋 白质 结构 的 静电 场 来 模拟 这 种 动态 变化 ,从 而 在 更 高 层 
面 了 解 淮 白质 的 功能 。 


6.5 
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体内 蛋白 质 发 挥 其 生理 功能 时 ,通常 是 与 其 他 蛋白 质 协 同 作 用 。 绝 大 多 数 蛋 白质 是 与 
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其 他 恒 白 质 -- 起 ,形成 紧密 结合 ( 亚 基 ) 或 松散 型 蛋白 质 复 合体 ,组 成 某 一 网 络 或 代谢 途径 。 
认识 蛋白 厌 的 相互 作用 是 解析 其 功能 的 基础 。 分 析 弄 宇 质 相互 作用 的 方法 目前 主要 依靠 遗 
传 学 或 生物 化 堂 方法 ,如 酵 姓 双打 交 或 三 杂交 系统 .免疫 共 测定 技术 .质谱 分 析 等 ,目前 这 些 
方法 都 建立 了 相应 的 高 通 量 方法 。 随 着 结构 信息 学 的 发 展 ,相互 作用 的 预测 也 成 为 相互 作 
用 组 (interactome) 的 重要 内 容 。 

相互 作用 的 预测 主要 包括 结合 部 位 的 锯 测 和 结合 对 象 的 预测 。 儿 种 常见 的 预测 方法 
有 : 忠 进 化 遗传 分 析 , 如 进化 遗传 档案 .Rosetta - Stone 法 . 淮 色 体 邻 近 分析 等 :四 从 头 预 测 
( ab initio prediction) ;号 员 时 斯 网 络 法 (Bayesian networks) [1 依据 这 些 分 析 建 立 的 相互 作 
用 数据 库 包 括 SPIN - PP MIPS, DIP BIND , ProNet 等 。 


6.5.1 进化 遗传 分 析 

在 蛋白 质 相互 作用 分 析 中 ,通过 与 进化 遗传 学 分 析 方 法 结合 ,可 以 得 到 有 关 进 化 保守 区 
的 相关 信息 ,特别 是 结合 有 关 突 变 分 析 资 料 ,从 而 推断 某 些 相互 作用 的 部 位 。 这 些 进 化 保守 
区 常 属于 结构 重要 区 或 漂 性 部 位 。 相 互 作用 部 位 的 预测 可 以 依据 结构 进行 物理 锚 定 ,也 可 
以 依 缆 序列 相关 性 突变 分 析 ,或 者 是 结构 与 序列 相 结合 的 杂 委 方法 。 相 互 作 用 对 象 的 预测 
分 为 两 大 类 :人 基于 基因 组 信息 。 包 括 种 系 发 生 档 案 {(Phylogenetic profiling) .邻近 基因 保守 
TE (conservation of gene neighboring) 、 基 因 融 会 { gene fusion). 或 称 Rosetta — Stone 法 等 3 种 主 
HEN, 56-2, © 基于 序列 信息 。 和 包括 相关 性 突变 (correlated mutation, i2h ) 和 种 
系 发 生 树 相似 性 (similarity of phylogenetie tree, mirrortree ) 。 

蛋白 上 AB EC AD 
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6-2 基于 基因 组 信息 的 进化 遗传 分 析 和 蛋白 岳 相 互 作用 


图 6-> 是 3 种 基于 基因 组 信息 的 预测 方法 的 示意 图 。 种 系 发 生 档案 分 析 中 , 蛋 户 A 和 
HA C 在 不 同 种 履 中 总 是 同时 存在 或 同时 不 存在 ,表明 这 吨 种 蛋 卢 相互 协同 作用 。 邻 近 基 
因 保 守 性 分 析 中 ,在 大 肠 杆 菌 苯 因 组 中 可 以 看 出 A 和 有 В 基因 在 染色 体 上 的 邻近 头 系 ,也 是 
相互 作用 的 证 据 。 基 因 融 合 分 析 中 ,在 流感 杆菌 中 出 现 A 和 B 的 融合 基因 ,往往 是 A 和 B 
相互 作用 的 证 据 。 

相关 性 突变 研究 (2h) 巾 可 用 于 相互 作用 部 位 的 预测 ,也 可 用 于 相互 作用 对 象 的 观测 ， 
只 是 分 析 序 列 的 大 小 不 同 而 已 。 通 过 多 序列 耻 列 分 析 , 针 对 筛选 出 的 两 个 序列 ,分 别 比较 3 
种 类 型 的 配对 关系 :AA.AB LBB ,得 到 相互 作用 指数 ,根据 其 相关 性 判断 A 和 了 是 再 存在 相 
互 作用 。mirrortree 分 析 是 比较 A 和 有 两 种 可 能 相互 作用 的 量 白 的 进化 树 。 如 果 两 者 存在 
相互 作用 ,其 进行 过 程 应 该 相似 , 即 共 进 化 (eoeyolution)。 根 据 各 树枝 所 得 到 的 进化 距离 ， 
列 成 阵列 ,然后 按照 遗传 距离 作 图 ,观察 A 和 和 B 之 间 雍 传 距离 的 相关 性 ,来 说 明 是 否 存 蛮 根 
互 作用 。 以 上 两 种 基于 序列 分 析 的 进化 遗传 分 析 方 法 可 以 看 做 种 系 发生 档 案 分 析 的 深入 ， 
即 从 主干 分 析 深 入 到 树枝 的 分 析 。 


6.5.2 ab initio 预测 

蛋白 质 相互 作用 的 从 头 预 测 是 根据 多 肽 链 的 物理 化 学 特征 预测 其 折 司 方式 ,再 通过 所 
得 到 的 模型 ,预测 其 相 丘 作用 区 战 或 相互 作用 对 象 。 要 建立 -个 较 准 确 的 从 头 开 始 预测 程 
序 是 结构 生物 信息 学 的 一 大 挑战 ,参见 6.3.3 节 。 和 静电 相互 作用 分 析 (elecbostatie interac- 
tion ) 可 视 做 从 头 开始 预测 方法 之 --, 这 也 是 分 子 能 量 学 的 重要 内 容 ,特别 是 在 配 体 钳 定 
(ligand docking) 分 析 , 蛋 肯 质 复合 体 预测 和 药物 设计 中 有 重 村 应 用 价值 。 静 电 相 互 作用 分 
析 中 最 重要 的 分 析 原 理 是 利用 线性 Poisson – Boltzmann 方程 ( PBE)， 这 同时 也 考虑 溶液 环境 
的 影响 。 已 有 一 些 程 床 如 DelPhi AMBER 等 就 是 利用 РВЕ 进行 静电 相互 作用 分 析 的 。 


6.5.3 贝 叶 斯 网 络 法 

员 时 斯 网 络 法 所 是 最 近 建 立 的 分 析 了 酵母 重 台 质 相互 作用 的 方法 。 该 法 利用 MIPS 数据 
库 中 价 白 质 复 合体 作为 阳性 对 照 ,同时 利用 定位 于 不 同 细胞 器 上 的 蛋白 质 作为 阴性 对 照 , 建 
立 训 练 和 测试 模型 。 然 后 整合 有 关 高 通 量 酵母 双 杂 交 系 统 和 免疫 共 沉 淀 的 实验 资料 和 有 关 
基因 组 水 平 相互 作用 的 资料 ,利用 贝 叶 斯 定理 建立 相互 作 册 的 概率 预测 模型 ,并 经 相关 实验 
认证 。 这 是 尝试 将 不 同 数据 进行 整合 ,以 提高 预测 准确 性 的 一 种 方法 。 相 同方 法 的 整合 将 
为 相 下 作用 组 提供 高 丰富 .更 准 确 的 内 容 。 图 6-3 总 结 了 目前 蛋白 质 相 后 作用 分 析 的 不 同 
方法 。 
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图 6-3 和 蛋白质 相互 作用 分 析 方法 


6.6 看 白质 结构 分 析 的 基本 流程 


结构 牛 物 信 息 学 中 涉及 的 软件 和 数据 库 种 类 繁多 ,如 何 从 中 尊 选 出 比较 实用 .结果 较 可 
靠 的 分 析 方法 蚌 用 户 最 实际 的 问题 。 特 别 是 针对 一 种 新 蛋白 康 , 如 何 通 过 预测 获得 有 用 的 
结构 信息 ,以 指导 实验 设计 。 优 化 一 套 和 蛋白 质 结 构 分 析 的 流程 往往 可 起 到 事半功倍 的 效果 。 
pda 合 自己 对 HPS 蛋白 分 析 的 体会 ,总 结 以 下 分 析 流程 Bei 8-5, 006-2. Ж 
质 分 析 中 的 趋势 是 将 各 种 程序 整合 到 服务 名 上 ,可 得 到 多 种 不 同 的 信息 。 常 用 的 服务 
М. : 
(1) ExPASy ; http; // us. expasy. org; 
(2) PredicProtein :http: / cubic. Мос. columbia. edu/predicprotein; 
(3) РІ :http: // pir. georgetown. edu, 
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6-2 新 发 现 蛋 白质 结构 与 坊 能 预测 流程 表 


分 析 软 件 
分 析 内 容 
WAR 或 服务 器 网 址 评价 | 
基本 特征 ProtParam hip: //us. ехраву, org/inols/ protparam. html "T $5 38 3 ЛИ —- 2 ҖЕ Bj 
基本 信息 
fa Ek SignalP http://www. cba. dtu. dk/services/SignalP ТШЕ rn НК 
ты ScanProsite http; //us. expasy. org/tools/acanprosite 检索 Prosite 数据 库 的 也 捷 方 法 
结构 域 SMART http / / smart. embl — heidelberg. de 结构 域 的 常用 数据 库 
InterPro http://www, ebi, ac. ük/imerpro/scan. html 检索 InterPro 数据 库 的 方法 
Tribes MATA htp;//cubie. bioc. columbia. edu/predictpro- 该 服务 器 可 反动 链接 到 不 
tein/submit, met, html 同 的 拓扑 结构 分 析 程 序 , 她 
PROFphd, PSIPRED, SSpro2 
等 ,通过 下 -mail 反馈 结果 
跨 膜 结构 HMMTOP http://www. enzim. hu/hmmtop 常用 的 跨 膜 结构 预测 程序 
TMHMM http://www. cbs. dtu. dk/services"TMHMM — 常用 的 跨 膜 结 构 预 测 程序 
2.0 
TMPred http://www. ch. embnet. org/seftware/TYM- 常用 的 跨 腊 结构 种 测 程序 
PRED form. аш 
细胞 定位 PSORT http ://psort, nibh. ac. jp/form2. html 查找 细胞 定位 信号 或 基 序 
ЁК COILS http://www. ch. embnet. org/software/COILS.— 证 要 预测 线 阐 绕 线 团结 构 
Torm. html 
3D 结构 PDB http: www. pdb. org 新 发 现 蛋 白质 通常 为 出 性 
结构 ,但 可 与 同 源 重 魏 夸 进 
行 结 构 比 较 
СЕ http :Zel. sdse. ейш^се. html 3D Ж А EEE 
相互 作用 MIPS http://www. mips. biochem. mpg. de/pro 主要 收集 酵母 中 重 日 相互 
yeast/tables/interaction 作用 
DIP http://www. ampere. doe — mbi. ucla. edu; t A s RR IBS USE H 
8080/dip. html TH IE Hi, JE SIRI X BR BE 
接 
同 源 性 与 BLASTpZ http://www., nchi. пип. nih. gov/ BLAST 通过 BLAST éj |F] mmu 
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Swiss — Prot 
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6.7 ЖАЖА Yr iy e V Y: 


H BIS НАЛА ЕД АК EUR VA ДОКЕ 3 Е: ЕНИН АЛЕ X АЛ 
结构 分 析 .核磁 共振 (NMR) 光谱 分 析 .电镜 技术 。 此 外 ,高 通 量 的 酵母 双 杂 交 系 统 .免疫 共 
沉淀 技术 和 质谱 分 析 方 法 可 视 作 生物 化 学 中 蛋白 质 相互 作用 分 析 的 主要 技术 平台 ,也 是 结 
КЗЫ Н ЗВОН Л Г.А. 可 参考 相关 实验 手册 ,此 外 不 再 著述 。 


6.7.1 六 -衍射 蛋白 质 晶 体 结构 分 析 '" 

X - gi £X dl p SH yy X – ray diffraction erystallography ) 是 解析 生物 大 分 子 结构 与 功 
能 的 基本 方法 。 该 法 首先 是 将 待 分析 的 纯化 重 白质 形成 晶体 ,然后 利用 X- (35) BORA 9l 
该 晶体 的 相关 数据 ,整合 成 相应 的 图 像 , 存 情 于 结构 数据 库 中 。 该 法 耗 时 呐 力 , 特 剔 是 需要 
大 量 人 工 处 理 各 种 数据 ,和 将 来 源 于 不 同 软 件 的 资料 加 以 整合 。 这 样 ,快速 处 理 晶 体 结构 数 
据 和 减少 差错 便 成 为 目前 蛋白 厦 晶 体 结构 分 析 的 两 大 难题 或 瓶颈 。 近 年 来 , 随 着 自动 化 和 
高 通 量 分 析 技 术 的 应 用 ,大 大 加 快 了 蛋白 质 唱 体 结构 分 析 。 例 如 ,剑桥 结构 数据 库 (CCSD) 
每 年 新 增 大 约 15 000 条 晶体 结构 数据 条 目 。 同 时 ,传统 的 X - 衍射 蛋白 质 晶 体 结构 分 析 技 
术 也 得 以 大 大 改进 ,提高 了 分 析 效 率 。 尽 管 如 此 ,晶体 数据 处 理 中 的 运算 法 则 仍 需 要 完善 ， 
数据 的 加 芽 处 理 和 分 析 涉 及 大 量 统计 和 后 物 信息 学 的 十 作 。 员 体 结 构 分 析 的 常用 软件 有 
SOLVE,RESOLVE 等 。 舅 外 ,该 技术 仍 无 法 解决 某 些 难 以 形成 晶体 结构 的 蛋白 质 的 分 析 。 

高 通 量 晶体 结构 分 析 中 的 几 大 重要 环节 是 :数据 处 理 与 分 析 ERT Fg xe tu .密度 修 饰 、 
分 子 替换 .图 形 整 合 、 模 型 加 工 和 确认 。 晶 体 结 构 分 析 中 的 自动 化 所 面临 的 主要 挑战 是 非 晶 
体 结 构 的 对 称 ( noncrystallographic symmetry, NCS) ARALAS (disorder), PER FE htk 
结构 的 运算 法 则 和 计算 机 科学 的 发 展 , 相 信 新 一 代 的 自动 化 分 析 软 件 将 进一步 解决 以 上 所 
面临 的 问题 ,并 将 话 时 处 理 各 种 衍射 数据 和 加 人 快 图 形 整合 过 程 。 


6.7.2 ”核磁 共振 光谱 分 析 司 1 

大 分 子 结构 分 析 的 核 籁 共振 光谱 分 析 (nuelear magnetic resonance ( NMR) spectroscopy) 
是 结构 基因 组 的 重要 内 容 , 约 占 PDB 中 1$ 锡 左右。 特别 在 测定 和 蛋白质 与 配 体 结合 的 相互 作 
用 时 ,NMR 技术 起 重要 作用 。 同 时 ,NMR 也 是 酶 动力 学 研究 、 蛋 白质 折 生 和 稳定 性 研究 中 
的 重要 工具 。 随 着 NMR 的 有 效 性 和 应 用 范围 的 折 展 ,其 在 结构 基因 组 或 结构 生物 信息 学 
中 的 应 用 也 盒 加 广泛 。 且 前 美国 NIH 属 下 的 NIGMS 研究 所 成 立 的 蛋白 质 结 构 协 作 组 
(PSD 中 ,NMR 成 为 一 些 中 心 的 支柱 性 技术 。 

与 处- 衍射 蝇 体 分 析 技 术 相 比较 ,NMR 技术 无 须 制 备 晶 体 标本 ,可 在 溶液 中 直接 测定 ， 
也 可 进行 回 相 测定 ,因此 利用 NMR 法 使 得 某 些 无 法 获得 晶体 结构 的 蛋白 质 或 非 液 相 蛋白 
质 ( 如 膜 蛋白 ) 的 结构 测定 成 为 可 能 。 相 对 而 言 ,NMR 技术 更 适合 小 分 子 质 量 蛋 白质 结构 的 
分 析 ,上 前 主要 来 源 于 大 申 杆 菌 中 表达 质粒 所 表达 的 纯化 重 白 质 。 对 于 蛋白 质 折 和 登 、 局 部 动 
力学 或 构象 分 析 EA - 蛋白 相互 作用 ,NMR 更 体现 其 优越 性 。NMR 的 不 足 之 处 是 成 本 太 


wanna waqa rne d dune Res ete e meme arae ris ` ар $e 党 点 学 时 й 


高 , 步 又 繁多 。 因 此 ,了 者 在 结构 基因 组 中 具有 互补 性 , 常 有 机 地 结合 在 да. — BERE 
BATF 60 ku 者 用 和 -衍射 晶体 分 析 法 ,分 子 质量 小 于 6 ku 者 用 ММК 法 。 

NMR 光谱 技术 的 原理 是 分 析 受 磁场 作用 下 ,经 磁力 加 速 旋转 的 原子 核 不 同 状态 间 转 换 
时 的 情形 。 常 用 于 蛋白 质 NMR 研究 的 原子 核 包 括 'H,”C,“N 和 "P。 结 构 测定 中 ,首先 是 
利用 多 维 SETE NMR 方法 测定 序列 特异 性 结构 信号 。 这 种 结构 信号 是 二 级 结 物 的 共 
本 特征 ,也 能 反映 出 半 胱 氮 酸 的 氧化 状态 ,并 用 于 测试 或 确认 所 得 到 的 结构 模型 。 其 次 , 通 
过 多 种 不 同 的 NMR 实验 获得 其 他 结构 区 域 的 信息 ,如 原子 核 间 的 距离 .转角 .排列 方向 m 
键 形成 等 。 最 后 将 所 有 NMR 盗 料 加 并 处 理 , 得 到 的 数据 存储 于 РОВ 中 。 

PDE PRESEA NMR 条 日 包括 :所 研究 蛋白 系统 的 描述 、 E ELLA TRES HR 
【溶剂 .pH .湿度 Hs Л .浓度 等 ) NM 数据 采集 方法 ,NMR 参数 和 相关 信息 以 及 未 加 工 的 

NMR 的 数据 处 理 涉 及 许多 生物 信息 学 方法 。 首 先是 将 原始 资料 进行 Rourier 转换 为 不 
同 的 峰值 ,然后 采集 各 种 不 同 的 峰 组 成 图 谱 , 并 筛选 出 具有 特定 结构 竺 征 的 图 谱 。 这 些 过 程 
常用 NMRPipe 和 SPARKY 4X [f ( http: / www. cgl, ucsf. еби/һюте/врагку/ ) 处理 ,也 使 用 XE- 
ASY DYANA 和 GARANT 等 软件 分 析 侧 链 或 骨架 结构 。 最 后 对 于 所 得 到 的 结果 或 模型 需 
要 进一步 修正 和 确认 ,才能 送 交 到 РОВ rh. NMR BRE RRES ERR ASKF, 减少 
数据 处 理 时 间 和 差错 ,利用 无 细胞 系统 以 减少 样 剖 处 理 时 间 。 


6.7.3 冷冻 电镜 技术 站 

上 文 壕 及 的 和 射线 品 体 分 析 和 ММА 光谱 技术 主要 针对 单个 蛋白 质 结构 的 解析 。 事 实 
上 ,生物 系统 是 一 个 非常 复杂 而 有 机 结合 的 系统 。 生 物 太 分 子 的 装配 过 程 可 以 提高 电镜 技 
术 进 行 观察 ,并 追踪 其 动力 学 过 程 。 这 种 基于 电镜 技术 的 结构 分 析 下 在 接近 生理 条 件 下 同 
时 观察 多 种 成 分 的 图 像 变 化 。 这 主要 是 依赖 上 世纪 80 年 代 以 来 的 冷冻 电镜 技术 (eleetron 
cryomicroseopy) 来 观察 生物 大 分 子 的 空间 构象 ,同时 需要 异动 生物 信息 学 方法 如 模式 识别 
( pattern recognition) .数据库 分 析 . 同 汰 性 模型 ( homology modeling) 等。 由 冷冻 电镜 技术 所 
获得 的 蛋白 质 三 维 结构 与 和 射线 品 体 技术 非常 相似 , mA HARR БАЗЕ ЧЕ, Зате F AE 
膜 蛋白 的 分 析 。 此 技术 目前 详 用 面 并 不 太 广 ,也 没有 形成 相应 的 数据 库 , 尚 在 不 断 发 展 之 
中 ,并 试图 与 X 射线 晶体 分 析 和 NMR 技术 相 结 合 ,以 弥补 其 分 辩 率 的 不 是。 


6.8 常用 蛋白 质 结 构 数 据 岸 介绍 


第 4 章 已 对 常用 分 子 生物 党 数据库 的 结构 利 基 本 类 型 作 了 详细 论述 ,这 里 主要 介绍 几 . 
种 常用 的 结构 数据 库 ,作为 补充 。 主 要 有 存储 蛋白 质 结 构 的 PDB{ Protein Data Bank) ,进行 
和 看 所 质 结 构 比 较 的 SCOP 和 CATH ,以 及 存储 次 级 结构 为 主 的 Pam 等 。 


6.8.1 РОВ 
PDB( http: // www. pdb. org) 始 建 于 1971 年 ,由 Walter Hamilton 在 Brookhaven 国立 实验 
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室 创建 ,用 于 满足 生物 大 分 子 结构 存储 的 需要 。1998 年 10 H ,PDB 由 结构 生物 信息 学 研究 
协作 组 (RCSB) 统 一 管理 。 其 独特 的 数据 录入 方式 已 被 称 为 PDB 格式 ,包括 原子 坐标 .化 学 
和 生化 特征 .结构 测定 实验 的 详细 条 件 .结构 特征 { 如 二 级 结构 .所 键 ,活性 部 位 .分 子 装配 
等 ) 1996 年 Callaway 等 ”将 PDB 的 格式 进行 了 统一 修订 和 描述 ,成 为 目前 PDB 数据 库 的 
统 -- 格 式 。PDB 也 摹 容 晶体 分 析 数 据 格式 (mmCIF) , 口 前 正在 建立 相应 的 ММК 数据 格式 。 
PDB 的 备注 {REMARK) 栏 中 特别 注 明 该 条 目的 变化 和 修改 情况 。 

РОВ 主要 收录 NMR .晶体 分 析 .冷冻 电镜 和 模型 预测 所 得 到 的 结构 数据 , 且 前 许多 杂志 
要 求 注 明 相 关 的 PDBid 号 。PDR 人 迄今 已 收录 1 万 了 千 驳 个 条 日 ,平均 每 局 增加 约 50 条 , 预 
计 到 2005 年 ,总 数 将 达到 3 万 5 T£, РОВ 的 数据 处 理 包括 数据 存放 ,分 析 和 确认 等 过 程 。 
数据 存放 后 会 自动 指定 一 个 PDBid 号 .经 过 几 步 确认 该 数据 后 , 才 成 为 真正 的 РОВ 条 日 ,其 
过 程 约 2 a Ze +f < 

РОВ 的 检索 可 查 刚 单一 结构 或 多 个 结构 。 查 测 方 式 分 3 种 : 山 状态 查询 (Status Que- 
ry) :主要 查询 所 存放 数据 的 处 理 状态 ;@SearchLite ; Fl T X 8t iu iJ; ; GOSearchFields ; 属于 更 
高 级 的 查询 方式 ,包括 PDBid .引文 作者 ,序列 .实验 方法 EC 编导 等 。 查 询 结果 可 直接 显示 
或 下 载 。 

与 РОВ 密切 相关 的 3 个 数据 库 是 生物 大 分 子 唱 迟 数 据 库 BMCD ( Biological Macromole- 
cule Crystallization Database , http: // www. bmed. nist. gov: 8080/bmcd/bmcd/hmed. htm }, € 
ЗТ DNA 和 RNA 结构 的 NDB ( Nucleic Acid Database, http: // ndbsetver. rutgers. edu ) ,以 
ВЕЕ CE (Combinatorial Extension of the Optimum Path, http: // cl. sdse. edu/ 
ce. html )。 另 外 ,NCBI 也 建立 了 -个 可 链接 参考 文献 ,序列 和 基因 组 信息 的 结构 数据 库 
MMDB( MacroMolecular DataBase „http: // www. nchi. nim. nih. gov/Structure) ,该 数据 库 主要 源 
B PDB ,可 通过 Entre: 检索 。 


6.8.2 SCOP WI CATH 
6.8.2.1 SCOP 


和 蛋白质 的 结构 反映 其 功能 和 进化 虫 。 其 结构 特征 往往 通过 与 其 他 蛋白 质 的 比较 而 获 
得 。 儿 乎 所 有 有 蛋 内 质 都 与 其 他 蛋 台 质 具有 结 梅 的 相似 性 ,或 者 说 芋 有 相同 的 进化 起 源 。 这 
些 相互 关系 的 研究 和 结构 特征 的 获得 是 结构 生物 信息 学 和 分 子 进 化 学 的 重要 内 容 。 基 于 这 
种 需要 Morin 等 5 于 1995 年 建立 了 看 白质 结构 分 类 数据 库 SCOP (Structural Classification 
of Proteins, http://scop. mre – Imb. cam. ac. uk/scop ) 。 该 数据库 主 要 依据 决定 三 维 结构 的 
特征 区 域 的 进化 学 相关 性 。 其 基本 理念 是 ,不 同 蛋 白质 序列 分 析 即 使 进化 关系 较 远 5 或 者 
序列 相似 性 很 低 ) ,但 其 结构 上 的 构造 关系 和 拓扑 结构 相对 更 为 保守 。SCOP 中 的 每 一 条 月 
包含 坐标 .结构 图 像 .相互 观察 .序列 .参考 文献 等 。 

SCOP 在 比较 结构 相依 性 时 , 依 问 共同 结构 核心 的 残 基数 自 太 其 平均 方差 的 平方 报 。 
蛋白 威 折 合 中 存在 固有 的 物理 和 化 学 规律 ,这 是 其 分 类 的 基础 。 构 建 SCOP 分 类 的 方法 首 
先是 通过 自动 程序 进行 视觉 观察 和 结构 比较 ,按照 树 样 层次 结构 (家 族 、 超 家 族 、 折 秋 、 类 
型 } 进 行 整理 。 这 种 层 状 结构 中 ,基本 的 分 类 单位 是 类 定 蛋 白质 进 化 ,结构 和 和 功能 的 结构 
域 。 作 为 同一 家 族 的 蛋白 质 ,其 序列 相同 性 至 少 为 3096 ;如 果 低 于 30% ,其 功能 和 结构 非常 
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接近 ,也 被 列 人 同一 家 族 (family ) 。 具 有 相同 折 杰 形式 和 相似 功能 的 家 族 归 类 为 趋 家 族 ( su- 
perfamily) 。 在 超 家 族 基 础 十 整理 出 相同 的 次 级 结构 抓 萱 (lqu) Wd e pp aE iF zy JR AS juj 
类 型 (class) 。 组 成 SCOP 的 类 型 包括 4 种 主要 的 妹 状 重 白质 类 型 Ца о Bo Be +8, 
此 外 还 包括 其 他 常见 类 型 ,如 多 结构 域 重启 ‚ДИЛИНДИ T ЖН „ЛЖИ .线圈 绕 线 圈 重 日 、 
低 分 辩 率 重 白 . 肽 类 等 。 表 6 -3 列 出 了 这 种 层 状 结构 关系 和 相对 数目 。 


表 6-3 SCOP 层 状 结构 关系 “ 


类 型 WË A8 CR 家 族 
= = EH 138 224 337 
£ В 93 171 276 
a/B &Ui 97 167 374 
«+8 EA 184 263 391 
ЖАНЫНЫН А 23 2% 35 
ро сач u 17 28 
PEH 54 77 116 
合计 605 947 1 557 


ж SCOP1 55} 版 1200 3 ДЖ PDB 13 220 496 ËB , & 31 474 个 结构 域 


检索 SCOP Bj, 可 接 虐 还 树 样 结构 分 别 在 木 同 层面 检索 。 施 列 相似 性 检索 方法 采用 
BLAST,FASTA 或 SSEARCH 的 算法 。 也 可 按 关 键 词 检索 ,可 能 得 到 不 同 的 SCOP 条 日。 每 
个 SCOP 条 晶 链 接 到 结构 图 像 . 相 忒 观察 ,原子 坐标 ,功能 变化 的 构象 数据 ,序列 资料 ,以 及 
MEDLINE 摘要 等 。 用 户 可 根据 SCOP 检索 得 到 的 缚 果 更 好 地 了 解 感 兴趣 蛋白 质 的 类 别 ,并 
ABIT TRELER Ga bit (oe SEE) ,从 而 指导 功能 性 实验 的 设计 。 

6.8.2.2 CATH 

CATH 是 Orengo CA 等 [9| 于 1997 年 建立 的 男 一 大 结构 分 类 数据 库 (http: // www. bio- 
chem. ucl. ас. uk/bsm/eath new) 。 其 建 库 基础 是 根据 结构 相似 性 和 进化 亲缘 性 ,需要 人 虐 确 
认 , 属 于 半自动 方法 .其 算法 是 利用 序 鞭 结构 比 对 程序 (sequentiat structure alignment. pro- 
gram, SSAP) 的 结构 比较 算法 并 结合 动态 编程 算法 (dynamic programming algorithm), FFF! 
比较 则 是 根据 配对 (pairwise) 算法 和 运用 HMM 方法 。 与 SCOP 相似 ,CATH 也 包括 4 种 树 
样 层次 :类 型 (class) .主体 (arehitecture) ,拓扑 {topology) 、 同 源 (homology)。 其 中 类 型 位 于 
和 树 型 结构 的 顶端 ,由 次 级 结构 成 分 组 成 ,目前 分 为 c WE, BHE a 利 8 三 大 主要 类 型 以 及 
其 他 6 种 次 要 类 型 。 主 体 结构 主要 描述 次 级 结构 在 3D 空间 中 的 方 咎 性 ,CATH 中 含 30 多 
种 主要 的 主体 结构 。 这 些 主体 是 由 约 800 种 拓扑 结构 归 类 而 来 的 。 同 源 性 超 家 族 中 ,根据 
结构 .序列 和 {或 ) 功 能 相似 性 进行 分 组 ,并 与 进化 关系 取得 -一 繁 。 根 据 序列 相同 性 ,这 些 辣 
Ti 5513 4 ni, 35% ‚60% ‚95% ,100% 不 同 水 平 ,共有 约 1 400 种 同 源 超 级 家 族 。 

CATH 的 检索 可 通过 网 络 服 务 器 进行 。 用 户 可 得 至 上述 4 个 屋面 相应 的 资料 ,并 与 


ЖОЖ ЖЕМЕГЕ Fat ЕЕЕ 


РОВ 等 进行 链接 ,其 应 用 价值 与 SCOP 相当 。 

此 外 , DALI( http; Z www. embl - ebi. ac. uk/dali/domain) 数据 库 也 是 常用 ВУ ES ЛМ] 
比较 与 分 类 的 数据 库 。CE 则 主要 用 于 三 维 结构 比较 。 据 分 析 ,SCOP、CATH 和 DALI 的 分 
类 一 致 性 超过 80% „ ЕЗЕК ,不 管 哪 种 乡 梅 数据 库 Hon] SETEER TK W T URL RIS ERE PP ,还 
依赖 本 3D 结构 实验 数据 。 全 原子 接触 法 (all - atom contacts) 是 目前 常用 的 … 种 结构 确认 
的 方法 。 


6.8.3 Pfam 


Pfam "是 一 种 大 型 的 蛋白 质 家 族 的 数据 库 ( http : www. sanger. ас. uk/Soltware/ Pfam ) , 
截至 2003 年 11 月 ,该 数据 库 已 收录 的 蛋 御 家 族 达 7 255 条 目 。 其 资料 来 源 主 要 为 SWISS - 
PROT 和 TrEMBL, Pfam 中 的 每 个 条 时 的 产生 ,首先 是 确定 代表 该 家 族 的 -种 种 子 序列 
( seed sequence) ,然后 根据 该 种 了 序列 利用 HMM 模型 (hidden Markov model , http; Ahmmer 
wsl edu ) 得 到 多 序列 比 对 资料 。Piam 也 是 InterPro 协作 组 的 内 容 之 一 。Plam 与 许多 公共 
PAEA SWISS - PROT „InterPro SCOP 和 参考 文献 等 建立 相互 链接 。 

Pfam 除 含 有 多 序列 比 对 的 信息 外 ,也 包括 结构 域 . 重复 区 . 基 序 .相互 作用 等 相关 信息 。 
此 外 ,还 包括 -: 些 非 结构 域 的 跨 膜 区 .信和 号 肽 .线圈 绕 线 圈 、 低 复 亲 性 区 域 等 。Pfam 的 检索 
功能 也 较 强 ,可 通过 蛋白 名 称 、 结 构 域 ,物种 分 类 等 查询 。 

Рат 在 蛋白 质 空间 结构 分 析 .进化 遗传 分 析 、 相 互 作用 分 析 . 罕 变 研 究 ,药物 研究 等 领 
域 发 挥 重要 作用 。 
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第 7 章 微 阵 列 生 物 信 息 学 


7.1 И ИЛ 


当今 生命 科学 领域 中 极 具 发 展 前 景 的 技术 之 一 是 微 阵列 接 术 {mi- 
croarray ) , 常 被 称 为 芯片 技术 (cehips) ,但 文献 中 还 是 以 微 阵列 的 术语 为 
+. 微 阵列 按 术 得 以 关注 和 普及 的 原因 是 能 同时 监测 成 千 上 万 个 革 因 
的 表达 ,并 能 在 同一 阵列 上 对 DNA 或 КМА 进行 定量 。 微 阵列 充分 利 
用 基因 组 的 序列 资源 来 回答 这 样 一 个 问题 ; 某 种 特定 的 物种 继 胞 中 ,看 
某 一 特定 的 时 间 .特定 的 条 件 下 哪些 基因 得 以 表达 ,更 重要 的 旦 ,比较 
正常 和 疾病 状态 下 基因 表达 的 不 同 。 这 是 功能 基因 组 的 重要 研究 内 
容 。DNA 微 阵列 技术 自 1995 年 诞生 之 时 … ,就 被 预计 为 具有 划时代 
X SCBUBOR ,将 从 很 林 上 改变 生物 科技 的 面貌 。DNA 微 阵列 技术 的 应 
用 数量 呈 指 数 级 增长 这 一 现象 已 证 实 这 -一 预测 。 便 如 ,在 作者 写 下 这 
段 文字 的 当日 (2003 年 9 H 11 H) ,在 PubMed А“ microarray” 这 
一 关键 词 ,可 得 到 4 250 个 相关 条 上 且 。 

对 微 阵列 的 需求 源 于 基 央 表达 的 何 题 ,这 是 分 子 牛 物 学 的 核心 问 
题 。 龙 其 是 当 人 类 基因 组 和 其 他 生物 基因 组 序列 破译 后 ,常常 需要 面 
对 的 一 个 问题 是 :在 某 种 因素 影响 下 ,全 基 央 组 水 平 的 表达 谱 是 怎样 
的 ? 例如 ,对 于 癌症 的 研究 ,尽管 许多 基因 组 水 平 的 分 析 技 术 有 助 于 曾 
明 肿 瘤 生 移 学 的 某 些 机 制 , 基 因 表 达 谱 分 析 则 较 以 御 更 有 利于 理解 况 
细胞 中 的 遗 待 改变 所 导致 的 一 系列 结果 , 即 上 成 千 上 万 个 基因 表达 方式 
的 变化 。 此 外 , 微 阵 列 技术 已 经 成 为 肿瘤 中 新 的 "分 子 分 类 学 "技术 ， 
并 用 于 鉴定 诸如 人 皮肤 黑色 素 瘤 等 不 同 肿瘤 中 新 的 致 病 基因 。 

微 阵 列 广泛 应 用 的 另 一 重要 原因 是 为 了 理解 基因 网 络 (network) 
或 途径 (pathway) 。 传 统 的 分 子 生物 学 方法 基本 上 是 针对 “一 个 基因 一 
个 实验 "的 设计 思路 ,其 通 量 非常 有 限 。 间 时 ,很 难 获 得 基因 功能 的 整 
体 框架 。 例 如 ,传统 方法 用 来 解析 基 内 之 间 相 互 关系 的 方法 之 一 是 通 
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TL“ R EARR , 仅 在 很 小 规模 上 观察 对 相同 或 不 同 组 织 中 对 其 他 基因 的 
表达 的 影响 。 这 种 方法 在 多 个 基因 功能 研究 中 显得 尤为 缓慢 ,效率 极 低 。 微 阵列 可 在 单 -- 
臣 片 上 同时 收 测 整个 基因 组 的 变化 ,因而 可 同时 理解 成 干 上 万 个 十 因 之 间 的 相互 作用 ,对 整 
个 表达 谱 (expression profile} 有 一 全 面 认 识 。 这 种 表达 谱 可 以 是 来 自 正常 或 异常 样本 。 尽 
管 要 从 所 得 结果 推断 基因 间 的 相 瑟 作用 仍 是 当代 功能 基因 组 中 最 具 姚 战 性 的 一 项 任务 ,但 
获得 这 些 资 料 后 无 疑 可 进一步 了 和 解 该 基因 所 外 的 途径 及 其 相互 作用 的 信息 。 另 外 ,一 个 基 
岚 是 如 何 影 响 男 一 个 基 困 的 表达 ,有 利于 阐明 其 一 途径 的 启动 基因 ,并 以 此 用 做 药 靶 ， 可 以 
肯定 的 是 , 徽 阵 列 转 术 将 不 仅仅 在 基础 性 分 子 生 物 学 的 基因 研究 中 起 非常 重要 的 作用 ,也 将 
在 疾 病 机 制 的 了 解 .诊断 和 预后 EDS ZI T ERATES SEHR. 


7.2 微 阵列 的 主要 类 型 


DNA 微 阵列 是 根据 传统 的 Southem 杂交 技术 建立 的 一 项 新 技术 。 微 阵列 实验 中 ,标记 
了 的 其 分 子 与 已 知 或 未 知 的 DNA 分 子 杂 交 ,这 些 分 子 被 结合 和 排列 到 固 相 支 持 物 上 (通常 
为 正片 )。 微 陈列 的 分 类 可 根据 所 排列 的 DNA 类 型 或 徽 阵列 的 制作 方法 进行 分 类 。 按 
DNA 类型 可 分 为 寡 核 昔 酸 .cDNA 或 基因 组 DNA。 按 制作 方法 , 宣 核 昔 酸 片段 通常 是 用 光 
刻 法 床位 合成 本 或 常规 人 台 成 后 , 固 相 结合 到 玻璃 等 支持 物 上 ;cDNA 微 阵 列 则 是 直接 用 自动 
控制 的 针 将 样 晶 点 在 同 相 支持 物 上 上 。 尽 管 还 有 其 他 多 种 与 DNA. 微 阵列 设计 相似 的 其 他 
微 阵列 类 型 ,用 于 检测 蛋白 质 或 抗体 , 呈 前 微 阵列 领域 中 仍 以 下 列 两 种 微 阵列 为 主 , 即 美国 
Stanford 大 学 研制 的 玻 片 型 cDNA 微 阵 列 和 美国 Affymetrix 公司 研制 的 高 密度 赛 核 荐 酸 基 央 
起 片 。 以 下 将 详细 介绍 这 两 种 微 阵列 。 


7.2.1 cDNA 微 阵 列 

XE Hr cDNA 微 阵列 是 利用 自动 化 装置 将 cDNA. 或 基 内 组 DNA ЭНЕ B3 ya МЕҢЕН Р 
片上 。 与 其 他 支持 物 如 尼龙 相 比 ,正片 型 DNA 微 阵 列 有 以 下 扩大 优点 。 首 先 ,DNA 样品 可 
以 东 价 结合 到 已 分 格 好 的 处 理 过 的 玻 片 上 。 玻 片 的 透明 性 和 醒 性 月 助 王 图 像 采 集 。 其 次 ， 
琥 片 可 耐 受 杂交 过 程 中 的 高 温和 i 洗 滚 的 高 离子 强度 。 再 次 , 芒 片 的 无 扎 性 可 以 保证 杂交 体 
积 非常 小 ,以 增 如 车 分 子 与 探 针 结合 的 动力 学 。 青 甚 次 , 玻 片 的 荧光 强度 低 , 基 本 不 影 啊 背 
景 噪音 。 最 后 ,由 于 待 测 样品 通 灌 是 经 荧光 标记 , 玻 片 可 保证 和 多 种 不 同 的 荧光 标记 分 子 在 同 
一 反应 中 进行 ,有 利于 样品 的 直接 比较 。 

制造 和 使 用 cDNA 微 阵列 的 过 程 见 图 7 -1。 其 主要 步骤 如 下 :中 利用 PCR 扩 增 技术 制 
£ DNA 探 针 ;名 利用 反 转 录 技 术 攻 光 标记 靶 DNA ;利用 自动 化 点 样 装置 将 DNA 探 针 点 于 
玻 片 上 ;加 将 荧光 标记 的 靶 DNA БЕ ТЕВЕ | ЛЕЛЕ; Обо ЖЖ PS E; ОЕТ ЯТ 
分 析 。 
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7-1 经 典 cDNA 微 阵列 工作 流程 图 


除数 据 处 理 与 分 析 分 别 在 7.5 和 7.6 节 叙 述 外 ,以 下 将 阐述 其 详细 过 程 。 

DNA 探 针 制备 的 常用 方法 是 扩 增 DNA sk cDNA 文库 中 克隆 载体 上 的 DNA。 通 常 采 用 
一 对 通用 引物 进行 扩 增 ,便于 在 相同 PCR 条 件 下 进行 。 如 果 是 扩 增 基因 组 DNA , 则 需要 选 
用 不 同 的 引物 ,此 时 难以 统一 PCR 的 条 件 , 可 以 考虑 用 全 基因 组 扩 增 技术 (WGA)。 

微 阵 列 实验 中 靶 DNA 的 制备 和 标记 方法 有 多 种 。 各 种 不 同方 法 中 ,首先 是 进行 待 测 样 
本 中 RNA 的 提取 ,得 到 1 ~5 hg 的 PolyA+ 或 50 ~ 200 pg 总 RNA ,然后 用 荧光 染料 进行 标 
记 。 最 常用 的 标记 方法 是 通过 逆转 录 过 程 直 接 换 入 , 即 在 反应 中 加 入 一 部 分 Cy 荧光 染料 
标记 的 dCTP , 换 入 到 合成 的 cDNA 中 。 另 一 种 常用 方法 是 间接 换 入 , 即 在 道 转录 反应 后 ,与 
男 一 种 活化 了 的 染料 反应 ,产生 氨基 修饰 的 dC ,该 染料 较 Cy 标记 的 dC 分 子 小 ,反应 效率 
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高 ,可 消除 前 一 种 标记 方法 中 Cy3 和 Cy5 不 同比 例 的 搜 人 ,以 保证 把 分 子 中 含 相同 量 的 外 源 
基 团 。 第 三 种 也 是 最 少 采用 的 标记 方法 ,是 在 赣 转 录 反 应 后 ,得 到 单 链 cDNA ,在 荧光 标记 
dC 存在 的 条 件 下 ,与 随机 引物 反应 ,进行 延伸 ,得 到 较 短 的 标记 互补 链 。 

微 阵列 的 印 制 (printing) 既是 一 种 艺术 ,也 是 一 门 科学 。 要 得 到 重复 性 好 的 样品 点 并 
不 容易 ,需要 相关 的 化 学 、 程 学 ,编程 和 分 子 和 牛 物 学 等 方面 的 经 验 。 尽 管 已 出 现 多 种 自制 
或 商品 化 的 机 械 手 用 来 点 样 (spotting) ,其 基本 制作 要 求 是 将 玻 片 放 在 静止 的 台面 , 带 有 点 
样 针 的 机 械 手 可 沿 x -y -z3 个 不 同 平面 移动 排 成 细密 的 陈列 ,还 需要 有 一 个 清洗 站 在 不 
同 的 点 样 间 清 洗 点 样 针 ,同时 烘 二 ,其 过 程 受 计算 栅 控制。 制备 过 程 要 避免 灰尘 的 污染 ,并 
在 合适 的 温度 和 湿度 条 件 下 进行 。 制 作 的 最 后 一 步 是 将 阵列 表面 网 定 ,以 使 其 他 DNA 不 能 
再 十 接 结合 到 玻 片 上 。 已 有 不 同 的 出 定 方法 ,但 结果 都 差不多 。 通 常 需要 对 玻 片 表面 进行 
一 些 处 理 ,使 其 具有 床 水 性 ,有 曲 于 杀 交 过 程 中 与 溶液 的 混合 。 

杂交 是 指标 记 了 的 靶 DNA 与 探 针 在 玻 片 上 的 反应 ,产生 异 源 双 链 DNA。 微 阵列 上 进 
行 的 荧光 标记 DNA 的 杂交 条 件 与 其 他 分 子 生 物 学 中 常用 的 DNA 杂交 方法 相似 。 杂 交 反 应 
受 多 种 因素 影响 ,包括 温度 .缓冲 液 .湿度 . 盐 浓 度 .杂交 时 间 ,杂交 液体 积 等 。 杂 交 反 应 可 以 
按 手 工 方法 进行 ,也 可 以 在 自动 化 平台 上 操作 。 白 动 化 操作 在 温度 控制 等 方面 更 好 ,使 得 反 
应 的 变异 性 小 。 | 

接 下 来 便 征 微 阵列 数据 处 理 过 程 。 其 目的 是 通过 扫描 获得 每 个 cDNA 点 样 点 的 信号 强 
度 或 信号 比值 。 点 样 点 (spot) S0 DNA 分 子 结合 后 , 便 带 有 荧光 基 财 Суз 和 Суз , 受 适 当 波 
长 的 光 激 发 后, 在 微 阵列 上 产 尘 荧光 信和 号。 产生 的 荧光 信号 强度 与 该 点 样 点 的 桨 料 分 子 数 
日 成 正比 ,然后 将 图 像 转换 为 数 宁 信息 ,记载 着 基因 表达 的 定量 信息 ,用 于 后 续 的 微 阵列 数 
据 分 析 。 微 阵列 图像 处 理 的 过 程 包括 :中 微 阵列 目标 区 的 分 割 ; O 背景 荧光 强度 的 获得 ; 
® 目标 区 检测 ; @@ 且 标 荧光 强度 的 获得 。 目 标 区 的 分 割 是 通过 软件 来 设 定 要 检测 的 微 隆 
列 点 所 在 的 区 域 ,以 获得 该 区 域内 各 样品 点 的 菊 光 信号 强度 。 背 景 分 析 是 分 别 得 到 检测 点 
附近 的 背景 强度 用 于 校正 。 玻 片上 的 背景 强度 并 不 很 均一 ,因此 不 能 只 采集 固定 位 点 的 背 
景 强度 。 背 景 的 变化 往往 是 渐进 的 和 平滑 的 ,可 能 受 多 种 技术 因素 影响 。 突 发 性 的 变化 很 
少见 ，-- 日 发 下 ,其 附近 区 域 的 样品 信号 强度 往往 不 可 靠 。 目 标 区 测定 要 求 在 指定 的 区 域内 
进行 。 最 后 一 步 是 计算 各 点 样 点 的 荧光 强度 的 数字 信息 ,背景 强度 和 质 控 信息 。 


7.2.2 = ШИТ BRE SU 

这 类 微 阵列 与 上 述 的 cDNA з зе AS |F], т БЕ ЖЕН IEEE PATE RE cDNA 克隆 ， 
因此 制备 时 不 需要 点 样 过 程 ,而 盖 将 窒 核 甘酸 (通常 为 20 = 25 Imers} 在 平坦 的 固 相 支持 物 上 
ВНЕ. 各 个 守 核 苷 酸 链 是 通过 前 一 个 碱 基 的 5 羟基 与 下 -个 得 连接 碱 基 的 磷酸 基 团 
HERS. ВЕРУВАА SIEEECE MESE OS ELTE КЕ АО T 位 置 受到 保护 ,以免 在 每 一 轮 合 成 
反应 中 一 个 以 上 的 碱 基 被 欣 人 。 保 护 基 财 在 下 一 轮 反 应 前 ,在 酸性 或 光照 条 件 下 转换 为 凑 
基 。 这 种 去 保护 方法 的 不 同 导致 不 同 的 原 位 合成 方法 的 出 现 。 最 著名 的 是 Affymetrix 的 
GeneChip( ASHO HERA Agilent 的 Ink Ja BER) ЖТ, 

GeneChip 利用 光 记 面罩 和 和光 去 保护 法 进行 寡 核 背 酸 的 侣 成。 首先 将 一 种 带 有 可 条 用 
光化学 切除 的 保护 基 财 的 连接 器 (linker) 贴 附 在 玻 片 上 ,然后 利用 光 刻 面 午 (mask) 通 过 发 
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光 激 活 阵列 区 ,产生 活性 羟基 。 将 特定 的 碱 基 (A.C.T 或 G) 在 给 定 条 件 上 与 活性 表面 温 
育 , 产 生 共 价 连接 反应 。 其 制作 过 程 通 常 需要 4 个 掩饰 步骤 (参见 图 7 -2) 。 然 后 接待 合成 
的 塞 核 音 酸 序列 依次 的 入 ,重复 上 述 步 又 ,得 到 不 同 的 蹇 核 此 酸 探 针 。 一 讲 完 整 的 探 针 阵 
列 , 当 长 度 为 上 时 ,需要 4n 个 合成 步 又 。 该 技术 可 制作 密度 非常 高 的 阵列 。 尽 管 会 成 步骤 
中 需要 不 同 的 面 单 , 当 设 置 后 ,其 合成 就 变 得 简单 ,可 生产 出 大 量 相同 的 阵列 ,便于 标准 化 和 
商业 化 生产 。 
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图 7-2 微 阵 列 光电 法 制作 示意 图 


Ink Jet 技术 利用 了 与 喷 墨 彩色 打印 机 相同 的 原理 。 滚 技术 不 用 光 进 行 保护 基 团 的 转 
O ,去 保护 过 程 利用 DNA 合成 仪 中 相同 的 化 学 方法 。 它 需要 4 种 林 同 的 “墨盒 ” ,分 别 装载 
KA T G .C4 种 不 同 的 核 医 酸 。 合 成 的 每 个 步 又 中 ,程序 指定 的 碱 基 通过 喷嘴 被 喷 到 玻 片 
上 指定 的 阵列 点 ,打印 头 按 阵列 所 需 的 序列 要 求 “打印 ”出 特定 的 核 萌 酸 , 进行 合成 反应 。 
整个 输出 过 程 由 程序 控制 , 较 GeneChip 更 为 灵活 。 图 像 和 数据 采集 都 采用 相应 的 商用 软 
fr. 
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7.3 微 阵列 的 应 用 


微 阵 列 已 成 功用 于 不 同 领域 ,这 取 诀 于 微 阵列 实验 的 类 型 。 微 阵列 最 常用 于 转录 组 的 
人 研究。 早期 大 部 分 的 表达 谱 实 验 是 用 来 比较 两 种 样品 中 表达 的 盖 异 性 “”。 在 设 定 的 界 值 
为 (cut off) n 时 (ma 为 倍数 ) , 孝 些 比值 高 于 的 基因 被 称 为 差异 表达 基因 。 目 前 则 | 主要 利用 
统计 学 方法 处 理 后 判断 是 否 出 现 表达 差异 ,而 不 是 依靠 某 种 人 为 设 定 的 界 值 来 判别 。 最 常 
用 的 两 种 统计 方法 是 i 内 验 和 方差 分 析 ( ANOVYA) ,前 者 主要 分 析 丙 组 数据 的 变化 ,后 者 主 
要 用 于 多 组 数据 的 比较 ” ,参见 第 10 章 。 

表达 谱 检测 的 号 一 重要 用 途 基 通过 观察 不 同时 相 多 个 样品 表达 谱 的 变化 ,以 预测 基因 
的 功能 及 其 所 参与 的 生物 过 程 , 或 对 样品 的 表 型 和 组 织 类 型 进行 分 类 。 这 种 医 测 是 基于 这 
FÉ 种 假设 ;具有 相同 变化 方式 的 基因 素 属 于 同一 途径 ;具有 相同 变化 方式 时 其 样品 类 型 非 
常 接近 。 如 果 已 知 某 些 基因 和 (或 ) 样 品 的 功能 或 类 别 , 具 有 相似 表达 方式 的 其 他 基因 很 可 
能 参与 同一 细胞 过 程 ,或 具有 相似 的 样品 特征 。 这 是 相关 性 的 证 据 。 将 转录 物 和 样品 分 类 
古 依 据 共 调 节 作 用 ,或 依据 表达 谱 将 细胞 所 处 的 状态 进行 分 类 。 

微 阵 列 按 术 具有 应 用 前 景 的 领域 之 一 是 肿 痛 的 分 类 。 微 阵列 可 同时 监测 原 发 性 肿瘤 或 
细胞 株 中 成 干 上 万 个 基因 RNA 表达 水 平 的 变化 。 癌 症 的 起 因 是 由 于 遗传 或 外 遗传 (epige- 
netics) 变化 的 累积 效应 ,这 主要 由 于 癌症 相关 基因 的 变化 所 引起 ,如 癌 基 因 或 拖 况 基因 ,或 
参与 细胞 周期 控制 T RA DNA 修复 .血管 撒 成 的 基因 等。 组 织 学 上 难以 区 分 的 有 种 痛 ， 
其 临床 特征 可 明显 不 同 ,这 些 肿瘤 在 分 子 表达 水 平 的 严 分 类 将 有 助 丁 解释 肿瘤 对 治疗 反应 
的 不 回 。 例 如 利用 微 阵列 技术 ,根据 "邻近 分 析 法 ”和 所 得 到 的 肿瘤 预测 模型 ,用 于 对 白 血 
病 的 分 类 ,可 较 好 地 区 分 急性 体 性 白血病 和 和 急性 淋巴 细胞 忻 白血病 …。 类 做 的 方法 应 用 于 
B 细胞 淋巴 冯 ”和 皮肤 黑色 素 瘤 ” 的 分 类 。 这 些 例子 说 明 利用 微 阵列 技术 可 鉴定 出 以 前 分 


类 不 明确 但 临床 意义 较 大 的 亚 类 。 

类 似 用 于 癌症 的 分 类 , 微 阵 列 技 术 也 可 用 于 药物 的 人 研 发。 最 简单 的 应 用 是 疯 察 用 药 后 
肿瘤 细胞 株 或 肿瘤 病人 基因 表达 谱 的 变化 。 这 些 研 究 可 提供 药物 作用 的 精确 机 制 或 鉴定 出 
药物 反应 的 早期 生物 标记 。 对 于 长 期 药物 治疗 的 临床 观察 , 微 阵列 可 得 若 有 关 副 作用 的 信 
息 和 用 于 预测 副作用 的 生物 标记 。 微 阵列 技术 的 其 他 用途 包括 :中 鉴定 疾病 的 易 感 基因 ; 
加 建立 有 效 的 和 早期 诊断 的 指标 ;加 通过 基因 表达 谱 的 监测 建立 可 车 的 预后 指标 ;他 根据 
患者 基 内 表达 谱 作为 个 体 化 治疗 的 依据 。 此 外 , 微 阵 列 基 因 表 达 谱 还 可 用 于 测试 药物 或 一 
些 化 学 物 对 不 间 生 物体 的 作用 ,用 于 测序 SNP 和 检测 或 遗传 印记 ! 亲子 鉴定 ) 分 析 等 。 

微 阵列 按 术 应 用 虽然 非常 广泛 ,但 也 有 其 局 限 性 。 首 先 , 该 技术 对 于 低 表达 基因 的 检测 
灵敏 度 有 限 。 其 次 ,基因 表达 谱 不 能 及 遇 翻译 后 修饰 (如 磷酸 化 ) ЖЕ ИЖ ШЕН ЗЕЛ}, 
如 翻译 所 动 和 降解 的 变化 。 还 有 一 个 缺点 是 由 于 不 同 探 针 间 前 相似 性 得 到 相 下 全 交 信 叶 ， 
出 现 假 阳性 干扰 结 果 , 这 在 cDNA 微 阵列 中 特别 明显 ,各 点 样 点 很 难 避 免 与 其 家 族 成 员 的 交 
叉 反 应 。 最 后 , 微 阵 列 实验 的 结果 不 能 用 于 证 实 某 些 生物 变化 ,而 只 是 通过 统计 分 析 得 到 一 
个 可 能 的 推断 ,需要 进 -- 步 用 其 他 传统 的 分 子 生 物 学 方法 等 确认 。 


7.4 微 阵 列 实验 设计 


自从 土 泪 纪 90 年 代 中 期 微 阵 列 找 术 得 以 应 用 以 来 ,已 有 许多 综述 文章 讨论 该 技术 及 微 
阵列 的 数据 处 理 , 尤 其 后 者 是 该 技术 的 一 大 挑战 。 但 是 ,有 关 微 阵列 实验 的 设计 很 容易 被 研 
究 人 员 所 忽视 。 许 多 生物 学 者 认为 ,实验 中 只 要 包括 实验 组 .对照 组 和 重复 实验 ,已 是 以 回 
管 所 要 解决 的 问题 。 在 获取 相关 的 实验 资料 后 , 才 考 虚数 据 分 析 问 题 。 通 常 出 更 的 问题 是 
实验 所 提供 的 所 需 数据 不 足以 解决 相关 问题 ,特别 是 具有 数 十 个 或 数 百 个 微 阵列 的 实验 , JC 
其 如 此 。 和 多数 微 阵列 实验 是 几 来 比较 两 组 或 两 组 以 上 样 些 电 差异 表达 的 基因 或 寻找 多 个 样 
品 中 某 些 基 因 表 达 方 式 (patterm) 。 多 个 来 源 产 生 的 噪音 是 获得 准确 和 货 料 所 主要 关心 的 问 
题 ,因而 影响 到 所 要 解决 的 问题 。 消 除 这 些 品 音 是 徽 阵列 实验 设计 的 主要 动因 。 

恰当 的 实验 设计 ,可 使 品 音 降 到 最 低 。 这 需要 研究 章 审 慎 考 虑 各 种 实验 影响 因素 .并 鉴 
定 导 致 噪音 的 原因 .一 种 常识 问题 是 不 同 的 研究 项 旦 需要 根据 所 需 解 决 的 问题 提出 不 同 的 
实验 设计 ,但 微 阵 列 实 验 设计 中 ,不 管 分 组 数 日 和 样本 数目 的 多 少 , 仍 有 以 下 .一些 共同 鸣 问 
题 需要 考虑 。 


7.4.1 НАА 

微 阵 列 实验 中 ,使 用 对 照 (control) 主要 有 两 种 日 的 。 一 种 对 照 是 为 了 数据 的 正 态 化 ,如 
cDNA 微 阵列 中 使 用 看 家 基因 利 封 财 DNA (spike DNA)C 详 克文 )。 另 一 种 对 照 具有 更 广 
泛 的 意义 ,就 是 设立 阳性 和 胃 性 对 昭 , 以 便 对 结果 有 信心 ,并 监控 实验 是 成 功 抑或 失败 。eD- 
NA 微 隆 列 常 几 的 一 种 对 照 是 与 实验 组 的 对 照 标 本 , 芭 用 一 种 荧光 染料 标记 一 种 mRNA F: 
én CAE T 28 48) ,而 用 另 一 种 染料 标记 另 - -种 组 织 ( 如 瘤 普 称 本 ) 来 源 的 mRNA。 这 时 需 观 
察 的 组 织 如 癌 组 织 , 又 称 处 理 组 (treatment} ,正常 组 织 被 称 为 对 照 组 。 局 样 当 和 做 处 理 组 的 还 
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可 以 是 暴露 于 药物 А R (И 288 ИК ЖЕ) 中 的 组 别 。 在 所 有 这 些 处 
理 因 素 中 ,尽量 选择 除 处 理 因 素 不 同 外 其 他 因素 都 相同 的 参照 系统 作为 对 照 组 。 

在 如 何 使 用 参照 样品 的 问题 上 仍 存 在 争议 。 一 些 研 究 者 认为 如 果 将 所 有 标本 都 与 则 - - 
参照 系 比 较 , 可 导致 实验 可 靠 忻 的 不 足 。 多 数 徽 阵列 实验 中 的 参照 标本 使 用 与 实验 组 相同 
性 能 的 染料 。 实 验 设计 中 ,最 重要 的 考虑 是 对 照样 品 旺 足够 .具有 均一 性 Boe PESE. 多 
重 实验 中 ,对 琢 样 品 不 一 定 与 实验 林 身 有 关 , 只 是 尽 可 能 使 基因 测定 时 产生 非 零 信 号 。 这 是 
因为 当 对 照 用 做 分 母 时 ,如果 为 零 或 数值 非常 小 ,所 得 到 的 实验 /对 照 的 出 值 难 以 计算 或 波 
动 很 大 。 参 照 系 的 选择 还 常 科 用 零 时 点 进行 比较 。 通 常 癌症 标本 表达 基因 的 数量 较 止 常 组 
织 多 。 各 种 不 同 的 参照 系 ,具有 各 自 的 优 缺 点 。 零 时 点 mRNA 对 照 设 置 相对 方便 .并 容易 阐 
释 比 值 , 但 标本 量 天 时 不 容易 做 到 ,而 且 不 便于 不 同 实 验 室 之 间 的 比较 。 肿 瘤 纸 胞 株 mRNA 
常 被 用 做 不 同 实验 室 间 的 共同 对 照 。 采 用 基因 组 DNA 对 照 也 很 便利 , 量 足 ,而 且 重 复 性 较 
好 ,但 对 于 高 表达 的 基因 ,这 种 对 照 所 得 到 的 分 母 由 对 较 小 。 其 他 对 照 标本 还 采用 与 实验 组 
别 相同 ,但 将 不 同 组 织 的 RNA 进行 混合 (Pooling) ,以 保证 实验 组 产后 的 基因 表达 信号 ,对照 
组 中 都 有 等 同 基 因 的 表达 。 


7.4.2 ”重复 样本 的 慎 用 

早期 cDNA 微 阵 列 实验 通常 基 两 种 不 同 莹 省 标 记 的 mRNA 样本 与 同一 芯片 土 的 嵌 镍 竟 
争 性 杂交 反应 。 这 种 比较 性 的 实验 方案 似乎 无 须 进行 重复 。 其 实 不 然 , 也 会 出 现 许多 问题 。 
如 前 所 述 , 谋 差 变 异 可 来 源 于 染料 相对 强度 的 偏差 ,或 者 染料 对 ОМА 的 亲和力 ,以 及 RNA 
担 电 和 处 理 过程 等 。 光 攒 一 个 微 阵 列 实 蛤 的 结果 很 难 评估 这 些 变异 性 ,因此 需要 重复 实验 
来 对 这 些 误差 进行 适当 控制 ,以 反应 基因 表达 的 真实 情况 。 

E (replicates) 实验 的 说 计 可 以 是 将 同一 个 基因 点 在 不 同 的 点 样 点 土 ,或 者 用 不 同 的 
微 阵 列 重复 某 套 基 因 。 前 者 主要 解决 点 样 部 位 不 同 所 引起 的 噪音 ,后 者 主要 解决 杂交 过 程 
REAT ERS ERA, 
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上 噪音) 的 荣光 强度 符合 正 态 分 布 , 款 数 (p2) 部 为 1 000 7E: (o0) 852; 200, 在 一 块 片 子 上 ， 
每 个 基因 只 点 1 个 点 ,只 … 块 片 子 上 每 个 基因 各 点 4 个 点 。 一 种 不 表达 基因 在 测定 值 高 于 
一 定量 (例如 1 400) 时 ,被 当做 表达 基因 的 概率 的 计算 方法 旭 下 。 

对 于 单个 点 的 微 阵列 并 的 三 变 量 值 { 这 里 下 =1 400) 先 按 下 式 转 换 为 止 态 变 量 (2): 


X-u 1400—1000 
Z = = 2 公式 7 一 1 
т 200 (公式 ) 


假 附 性 的 概率 为 ( 查 标准 目 态 分 布 表 ) : 
P(Z»2) =1-P(Z=2) 21- 0.9772 =00228 (Z1 -2) 


结果 表明 ,有 2.28 名 的 机 会 不 表达 基因 被 误 做 表达 基因 。 乍 一 看 来 ,这 个 数值 似乎 很 
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低 ,但 是 ,一 块 cDNA | 阵列 上 通常 有 凶 达 2 万 个 点 。 如 果 上 其中 50 免 的 基因 不 表达 ,其 假 明 性 
基因 数目 可 达 200 个 。 这 个 数 日 其 至 多 于 那些 实验 中 真 止 有 表达 差异 的 基因 而 混淆 实验 
eA. 

对 于 另 一 块 每 个 基因 同时 点 4 个 点 的 片子 , 即 每 个 基 央 被 测定 4 次 , 其 标准 差 的 计 
算 为 : 


et. -R = 100 (公式 7 -3) 


4 (公式 7 一 4) 


这 种 情况 下 , 假 阳 性 的 概率 为 : 
Р(2 > 4) =1- P(Z«4) = 1 – 0.999 968 = 0. 000 032 (公式 7-5) 

ШБ EGER ,不 表达 基因 只 有 0.003 2% 的 机 会 被 当做 表达 的 基因 。 同 样 , 若 具有 
2 万 个 点 的 微 阵列 所 代表 的 基因 数目 为 5 000 个 ,如 果 50 多 的 基因 是 表达 的 ,最 和 多 只 有 一 个 
基因 (0.16 个 ) 是 假 了 性。 如 果 用 4 块 这 类 片子 检测 总 计 2 万 个 基因 ,所 得 到 的 假 阳 性 率 总 
和 为 0.64 (4 x0.16) 。 这 表明 如 果 重 复 实 验 结 困 显 示 某 个 基 央 具有 高 表达 值 , 则 该 基因 极 
有 可 能 是 表达 基因 。 

毫 无 疑问 ,下 论 是 在 同一 芯片 或 不 同上 片上 进行 重复 点 样 时 ,对 于 减少 假 阳 性 和 假 阴 性 
非常 重要 。 从 统计 学 观点 来 看 ,重复 越 多 越 好 ,但 由 于 成 本 的 大 大 增加 ,往往 不 是 很 现实 ,而 
且 会 增加 许 雪 没有 必 瑟 的 数据 处 理 的 负 扫 .选择 重复 数目 以 得 到 统计 学 上 有 意义 的 结论 取 
决 于 多 种 因素 ,包括 预期 基因 变异 性 大 小 .出现 | 类 错误 概率 (通常 为 0.05 或 0.011 利 统计 
效力 的 界 值 .对照 和 处 理 组 均 数 差异 性 大 小 等 。 重 复数 目 与 标准 差 成 正比 , 厄 与 某 种 固定 的 
I 类 和 本 类 错误 概率 的 条 件 下 的 两 组 均 数 的 差 值 成 反比 。 

尽管 选 怪 基因 重复 数 日 受 多 种 因素 影响 ,一 些 研究 者 常任 经 验 选 绎 合适 的 数目 ,无 论 如 
何 有 重复 比 没有 重复 要 好 。 一 般 建议 每 个 基因 最 少 壕 要 3 个 点 ,位 于 3 块 不 同 的 徽 阵列 片 
EU ,这 是 由 于 3 种 类 型 可 得 到 三 角 关 系 的 结果 。 


7.4.3 随机 化 原则 

微 阵列 实验 设计 中 另 一 种 常用 方法 是 随机 化 原则 (randomization ) ,以 减少 实验 偏差。 
随机 化 可 在 不 同 水 平 进 行 。 最 低层 面 是 重复 点 的 随机 化 。 如 果 重复 点 彼此 靠近 ,该 区 域 的 
局 部 偏 移 将 无 法 判别 该 结果 是 由 于 基因 的 效 庶 还 是 芯片 本 身 的 效应 。 这 就 村 求 微 阵 列 制 作 
时 考虑 随机 化 原则 。 这 记 给 数据 采集 和 资料 分 析 带 来 一 定 的 困难 , 特 击 是 那些 非 标准 化 的 
芯片 。 解 决 方法 是 国定 某 种 模式 的 区 间 内 进行 重复 样品 的 点 样 。 较 高 水 平 的 随机 化 是 将 世 
片 随机 指定 用 Cy5 还 是 Cy3 染料 。 更 高 水 平 的 随机 化 是 在 处 理 组 和 对 照 组 分 组 时 进行 随机 
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抽样 。 


7.5 数据 处 理 


7.5.1 丢失 数据 和 极端 值 的 处 理 

Eik Tir 35 ( missing data ) ILE УТЫ. ( outlier) ВЕ) sr: e rp ЖЕ ph ЕТ (quality con- 
trol) j^] АЕА [n] E, cds SR BERNER Ж Ea d HEROS NIE ,图像 失败 或 上 内 是 由 于 霹 片 上 
Rb a RES Же, NECEM BT H А УЕП iy S RE, ERAF, RRM 
led poop [н] РАН о, ЕТЕ ВР A EXER. cDNA 微 阵列 中 数据 丢失 的 含义 
EATEN empty spot) ,其 荣光 强度 为 零 , 或 者 由 于 其 背景 强度 高 于 样品 点 。Affymetrix 4 
阵列 重 失 数据 是 指 原 始 数据 中 错 配 值 (MM) T RERO (PM). 这些 可 疑 资料 通常 是 经 过 
卑 下 方法 剔除 ,不 用 做 分 析 。 但 在 某 些 情 次 下 , 吻 除 于 失 数 据 可 能 给 数据 分 析 带 来 困难 ,并 
引起 重要 信息 的 艇 和 失 。 因 此 ,最 好 将 丢失 数据 进行 替换 。 最 简单 的 数据 替换 方法 大根 据 同 

-总 片上 其 他 点 的 情况 进行 统计 分 析 和 而 得 到 一 个 预计 值 。 对 于 双色 DNA 微 阵 列 , 如 果 某 
个 基因 有 重复 点 ,这 些 点 的 平均 值 可 由来 代 震 于 失 数 据 ,， 如 果 没 有 重复 点 ,可 用 统计 方法 预 
Е (АП ЕМ 算法 )。-- 种 简易 方法 是 计算 该 样品 点 用 不 同 染 料 标记 时 在 整个 芯片 
强 庶 的 分 布 位 置 ,并 以 此 为 参照 , 排 算出 相应 位 置 上 的 圭 失 倩 而 加 以 替换 。 

概 端 数据 是 指 邳 些 储 离 群体 的 数据 。 微 阵列 实验 中 ,极端 值 的 出 现 和 消除 可 在 不 同 水 
平 。 极 端 值 可 在 一 块 世 片上 出 现 ,但 重复 片子 上 不 出 现 ;, 电 可 以 是 同一 片子 土 某 个 基 欠 的 重 
复 点 ,而 不 管 这 些 重 复 点 邻近 与 否 ;还 可 以 是 同一 片子 上 任意 点 所 产生 的 偏 高 。 

现 有 微 阵列 技术 中 ,多 种 因素 可 导致 不 同 芯 片 闻 的 变异 性 。 已 有 不 同方 法 减少 这 些 芯 
片 间 的 变异 和 系统 误差 (如 下 文 将 要 氢 述 的 止 态 化 )。 同 :类 型 的 蕊 片 中 ,那些 变异 性 大 的 
片子 点 当 去 除 ,这 种 片子 又 称 极端 片子 (outlier slide) 。 片 间 变 异 可 能 由 于 点 样 浓度 和 体积 、 
放 到 总 片上 的 标记 靶 分 子 数 日 ,杂交 条 件 各 其 他 因素 等 所 引起 。 最 简单 的 去 除 极端 片子 的 
方法 是 靠 视觉 观察 图 像 。 一 种 简单 而 有 效 的 消除 方法 是 通过 提高 实验 自动 化 程度 而 消除 。 

另 一 种 去 除 极端 片子 的 方法 是 如 前 面 实验 设计 中 讨论 的 那样 ,进行 重复 性 实验 ,并 用 统 
计 方 法 评 佑 片 间 变异 。 重 复 片 子 上 对 应 的 基因 如 得 到 相关 系数 。 这 种 方法 中 ,至 少 需要 3 
次 重复 才能 评估 芯片 质 明和 剔除 极端 片子 。 所 用 的 方法 是 计算 两 两 配对 (pairwise) 相关 系 
数 。 这 时 ,需要 设置 一 个 相关 系数 界 值 , 依 实验 设计 而 定 ,但 通常 必须 大 于 0.9。 通 过 西 两 
配对 ,分 别 得 到 各 相关 系数 入。 通常 情况 下 ,相关 系数 都 比较 高 日 差别 不 太 。 如 些 黄 个 相关 
系数 值 还 远 低 于 另外 -- 个 , 常 表明 存在 极端 片子 。 如 时 所 有 相关 系数 都 很 低 ,表示 微 阵列 的 
质量 养 , 这 不 是 极端 值 的 范畴 ,而 需要 重新 设计 和 制作 心 厂 。 

同一 蕊 片上 妃 可 而 现 极 端 值 。 在 缺乏 重复 点 的 情况 卜 , 最 高 和 最 低 的 数值 通常 窗 当 做 
极端 值 处 理 而 加 以 噜 除 。 阅 值 的 设置 可 以 根据 百 分 位 值 (如 最 低 数值 点 或 最 高 数值 点 的 
0.5% ) 或 那些 偏离 整个 片子 的 分 布 趾 一定 数量 的 标准 盖 范 围 ! 如 上 +3e)。 剩 余 的 资料 重新 
计算 均 数 和 标准 差 。 这 个 过 程 不 断 重复 ,直到 没有 发 现 极端 值 为 正 。 这 种 方法 主要 根据 统 
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计 学 原理 ,有 一 定 的 局 限 性 。 从 生物 学 角度 来 看 , 某 些 基 因 的 表达 问 能 极 高 或 极 低 , 而 且 意 
义 很 大 ,特别 是 那些 高 表达 的 基因 。 在 有 重复 点 的 情况 下 ,极端 值 的 挑选 主要 根据 重复 性 的 
相似 情况 。 如 果 某 个 重复 点 偏离 该 基因 所 有 重复 点 平均 数 几 个 标准 差 范围 ,这 个 点 即 被 当 
做 极端 值 ,需要 去 除 或 替换 。 


7.5.2 数据 的 正 态 性 和 线性 检查 

Е ( normality) 是 指 所 分 析 数 据 是 否 符 合 止 态 分 布 ,而 线性 (linearity) E38 BE £L EE n: 
的 散 点 图 中 ,其 数据 相关 性 哇 线性 。 在 数据 分 析 前 后 都 必须 检查 数据 的 正 态 性 和 线性 ,这 是 
由 于 微 阵 列 数据 分 析 所 用 统计 方法 中 基本 都 假定 数据 呈 注 态 分 布 。 如 果 数 据 人 不 呈正 坊 分 
di ,而 是 向 一 侧 偏 移 ,这 些 统计 方法 所 得 结晶 将 不 可 靠 ,除非 选用 不 依赖 下 态 分 布 的 非 参数 
统计 方法 。 微 阵列 数据 通常 向 布 焉 斜 , 这 是 因为 许多 基因 表现 为 中 度 或 低 上 度 表 达 。 检 查 正 
态 性 的 常用 方法 是 进行 日 -Q ТЕРСЕ 7 -3a) ,比较 测试 祥 品 昧 积分 布 丽 数 和 正 仿 性 密度 
的 累 积分 布 的 关系 。 如 果 样 品 分 布 接近 正 态 ,其 图 形 在 线 内 分 布 ,依据 偏差 方式 可 以 知道 其 
偏 移 刘 辐 。 如 果 曲 线 上 各 点 表现 为 底部 较 顶 部 平 二 ,这 时 称 数据 左下 ;相反 ,如 果 山 线 上 的 
ARAMARK TH, WRA EN E. 
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性 相关 资料 则 采用 局 部 正 态 化 方法 ( 详 见 下 节 )。 同 时 ,线性 检查 也 可 提供 数据 可 靠 性 的 信 
B. 检查 线性 最 简单 的 方法 是 作 散 点 图 (scatter plot)。 如 果 数 据 哇 线 任 , 点 的 分 布 应 符合 
直线 人 性 (图 7 -3b)。 
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图 7 -3 0-08 
(2)Q — Q 作 赂 比较 样品 分 位 数 与 理论 分 位 数 , 偏 离线 的 数据 点 表 东 不 符合 正 态 分 布 。 
(b) 对 数 转换 值 散 点 作 图 ,显示 数据 的 线性 关系 。 


为 了 提高 数据 的 正 态 性 ,通常 将 微 阵列 原始 数据 在 数据 分 析 前 进行 对 数 转换 。 数 据 转 
换 后 可 更 好 满足 统计 分 析 竹 能 ,如 变异 性 的 稳定 和 获得 累加 性 。 对 数 转 换 不 但 可 将 数据 转 
换 为 两 个 通道 中 所 得 数据 的 比值 ,同时 也 使 其 变异 性 稳定 下 来 ,并 将 数量 级 差别 转换 为 累加 
性 差别 ,有 利于 统计 分 析 。 
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7.5.3 数据 标准 化 

7.5.3.1 Аж 

徽 阵 列 技术 使 得 研究 者 可 同时 监测 成 后 上 万 个 基因 的 表达 情况 。 但 是 微 阵 列 实验 中 会 
出 现 许多 不 合 需要 的 系统 误差 " 。 表 了 -2 总 结 了 cDNA 徽 阵列 实验 中 常见 的 误差 来 源 。 


X7-2 微 阵列 实验 误差 来 源 
误差 来 源 FF 价 


mRNA 样品 制备 因 组 织 类 型 .试剂 盒 КМА REREBU SURE 1а], FE ao Ia] B EA T 0] ti 1 389 


标记 方法 受 标记 方法 .操作 过 程 及 核 背 酸 组 成 的 影响 

扩 增 方法 PCR 扩 增 难以 避免 扩 增 其 的 差别 

点 样 针 点 样 针 的 表面 性 能 有 差别 

кн 即使 用 同一 点 样 针 也 会 出 现 移 液 量 的 细微 差别 

探 针 固 定 尚 不 清楚 cDNA {ЖР rh ЖА eno i АТД 91195 H ЖШ 

AR AC cni A V 290НЧЕ др, ДАЛЕ ГЫ] А Е P TCR E 
SET BS E PE 可 能 因为 表面 封闭 的 不 均匀 , SECRET A E ZI E a DEP] — 
非特 异性 杂交 无 法 党 全 消 队 的 一 种 常见 误差 

非特 异性 背景 非特 异 倍 导 的 产生 可 来 自 邻 近 点 的 信 导 或 背景 的 平均 强度 的 加 深 
图 像 分 析 非 线 性 传递 特性 ,饱和 效应 和 点 形 可 导致 膏 莽 

КЖЕ 光 基 一 种 污染 信号 

点 形 点 形 不 规则 很 难 从 背景 中 分 割 出 米 


标准 化 或 正 态 化 (normalization) 就 是 将 不 同 芯 片 中 的 差异 进行 形 除 的 过 程 。 例 如 ,分别 
代表 对 照 组 和 外 理 组 的 微 阵 列 中 ,两 者 的 差异 可 能 来 日 起 始 RNA 或 cDNA 量 的 不 同 , 或 者 
标记 反应 的 效率 不 同 , 抑 或 杂交 过 程 的 不 同 。 其 中 任何 一 种 因素 都 会 使 结果 偏 移 而 影响 基 
因 表 于 水 平 的 测定 。 因 此 ,标准 化 在 微 阵列 数据 分 析 的 前 期 阶段 非常 重要 ,主要 减少 非 生物 
性 影响 因素 的 影响 。 | 

标准 化 是 进行 数据 准确 分 析 的 关键 。 目 前 已 有 许多 针对 cDNA ЖТА EEHESEECR РЕ 
列 标准 化 方法 。 同 时 也 建议 其 过 程 要 尽量 避免 真实 生物 学 数据 的 丢失 。 并 不 是 标准 化 方法 
越 复杂 ,数据 就 越 可 靠 。 标 准 化 方法 的 选择 取决 于 实验 设计 .数据 特征 等 , 哩 重要 的 是 考虑 
引起 误差 的 主要 来 源 。 因 此 ,标准 化 的 首要 问题 是 认识 系统 误差 的 来 源 。 如 果 采 用 参照 样 
本 , 微 孟 列 中 的 误差 来 源 容易 寻找 。 例 如 鉴定 荧光 强度 依赖 性 误差 的 常用 方法 是 将 比值 的 
对 数值 与 欧 光 强度 对 数值 的 平均 数 作 散 点 图 ( 即 M — A 作 图 )。 对 于 双 通 道 cDNA 微 阵列 ， 
处 理 组 和 对 照 组 的 散 点 图 应 呈 直 线 。M -A 作 医 中 ,多 数 点 应 沿 水 平 线 分 布 , 即 由 丁 多 数 夫 
因 的 表达 不 表现 出 差异 。 数 据 从 水 平 线 的 大 量 偏 移 常 提示 存在 某 种 误差 。 图 7 了 -4 ERK 
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光 强 度 依赖 性 误差 与 相应 的 潜在 误差 的 来 源 。 其 中 高 强度 端的 切断 表示 扫描 仪 的 饱和 
CA) , 低 强度 端的 高 变异 性 表示 通道 特异 性 玖 加 性 误差 (B) ,高 强度 端的 高 变异 性 表示 通道 
竺 异性 乘积 性 误差 {C) ,曲线 (D) 表 示 通 道 平均 背景 变异 性 ,曲线 (E) ЖОККО ЗЕ, МА 
图 形 分 离 表 未 不 均 -性 (F) (Вир; // www jax. org/staft/churchill/labsite/ pubs/index. html) 
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Hi7-4 强度 依赖 性 变异 来 源 


7.5.3.2 和 如何 进行 标准 化 

从 统计 学 角度 , 微 阵列 数据 的 标准 化 是 通过 不 同 的 数据 转换 方法 以 便 不 同样 蝇 或 实验 
具有 可 比 性 。 最 基本 的 正 态 化 方法 基 将 荧光 强度 或 强度 比值 进行 对 数 转 换 以 达到 接近 正 态 
分 布 ,从 而 减少 荣光 强度 或 其 比值 的 变异 性 ,使 其 不 受 绝对 信 中 数量 级 差别 的 影响 。 另 一 种 
数据 转换 过 程 ,也 就 是 通常 意义 的 标准 化 过 程 ,县 将 来 自 不 同 实 验 的 数据 转换 后 具有 可 比 
性 。 最 常用 的 方法 是 将 数值 转换 为 Z 值 。 微 阵列 数据 处 理 中 最 常用 的 数据 转换 方法 又 称 
中 心 化 ,就 是 将 某 个 分 布 移 到 预计 均 数 处 使 之 对 称 , 便 于 两 个 或 多 个 样本 的 比较 。 所 有 这 些 
方法 的 最 终 肯 的 基 将 数据 目 态 化 ,使 得 各 基因 相应 的 数值 间 具 有 可 比 性 。 实 现 这 种 转 措 的 
方法 大 致 分 为 两 大 类 :整体 正 态 化 (glohal normalization) 和 局 部 止 态 化 (local normalization ) 。 


NA 
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З GRE RS (E pa RS ЗЕ GS BE ИЕ 25 4F ЖАЫ] BERE ERI BA) EH ELTE ТЕЛ ЕЕЕ SE ETE З RI 
RALE? -5 {a)]。 总 强 订正 态 化 基于 这 种 假设 : АЕ НО ЖЫЕН ЖИЛ E CAE] ERT, 
两 个 这 种 样品 的 基因 素 达 大 密 数 相同 。 特 别 是 当 祥 本 量 足 够 大 .来 源 也 相似 时 ,更 是 如此， 
如 打样 本 来 源 不 同 ,这 种 正 态 化 效力 降低 。 整体 正 态 化 中 涉及 不 同 的 方法 。 其 中 之 一 是 将 
每 个 芯片 的 平均 强度 调 到 局 - 水平 [图 了 7-5( ma)]。 这 种 方法 的 优点 是 将 中 心平 均 后 , 数 
据 不 会 扩散 , 印 原 始 数 据 的 信息 量 汪 有 改变 。 这 可 以 通过 将 芯片 上 所 有 值 都 除 以 该 平 向 数 
而 达到 日 的 。 如 果 分 布 出 现 噪 音 或 偏 移 , 呆 用 百 分 位 数 , 中 位 数 等 代替 ,这 些 数值 受 无 关 信 
号 影响 小 。 另 外 也 可 以 用 至 均 减 法 米 进 行 中 心平 均 , 与 除法 原理 相似 ,常用 了 对 数 转 换 资 
料 , 见 下 式 。 


logX,.,. ш logY mran = log CX el Y...) (公式 7 -6) 


35 -- 种 方法 的 假设 是 , 微 阵列 上 所 有 的 基因 其 洗 异 性 相同 、 这 样 ,整体 中 态 化 就 是 建立 
-个 线 忻 回归 模型 ,使 之 符合 直线 形式 :y, =a + 8х, + cus 这样 处 理 的 资料 ,其 误 善 符合 最 
小 方差 的 原理 。 这 是 对 最 侍 前线 的 拟 合 ,使 得 两 组 数据 具有 相同 水 平 的 总 强度 。 

其 他 整体 正念 化 方法 还 采用 封闭 DNA 对 照 或 看 家 基因 对 照 进 行 的 校正 。 封 团 DNA 对 


照 中 ,假定 其 强度 比 们 为 1, 如果 比 值 偏离 1 ,可 用 下 式 来 调整 样品 则 的 差别 : 


Dd 


ERE. a = MERE x 【封闭 对 照 强 度 .s7 封 闭 对 照 强度 .a) (公式 7 了 -7) 


看 家 基因 方法 与 此 相似 ,假定 细胞 之 间 看 家 基因 的 读 度 是 相对 加 定 不 变 的 ,事实 上 并 不 
一 定 如 此 ,这 种 校正 可 能 是 误差 的 一 :个 来 源 。 

局 部 正 态 化 用 -于 两 个 或 多 个 样本 之 问 呈 非 线性 关系 的 情形 [图 7 -5 (bt)] ,这 通常 是 
由 于 系统 误差 所 产生 ,和 包括 点 样 针 的 不 - 致 . 玻 片 表面 的 不 均 --、 局 部 杂交 条 件 的 不 一 致 等 。 
如 果 能 解析 出 微 阵 列 的 亚 类 (subarray) ,可 以 利用 上 述 整 体 正念 化 方法 处 理 这 种 亚 类 ,从 而 
消除 这 种 系统 误差 。 男 一 种 局 部 正 态 化 方法 是 被 称 为 LOWESS 的 局 部 权重 多 项 回归 法 。 
这 种 方法 将 数据 拆 分 为 彼此 重要 的 区 间 ,然后 利用 下 列 多 项 式 进行 氢 合 : 


y = a, + ах + ауа? + ах ee 【公式 了 -8) 


LOWESS 回归 通常 在 A XJ М 的 区 问 内 进行 ,这 样 低 或 尚 表达 的 基因 很 容易 从 散 点 图 和 
线性 关系 中 发 现 ( 图 7-4)。LOWESS 正 态 化 的 处 理 过 程 起 : 先 将 数据 区 分 为 给 定 大 小 的 不 
同 区 间 , 沙 在 该 区 间 内 的 点 属于 多 项 式 的 首 项 并 进行 加 权 .也 就 是 说 更 靠近 估计 点 的 数据 权 
重要 大 。 这 样 所 得 到 的 结果 是 - :条 平滑 曲线 , 它 与 局 部 多 项 式 点 数 成 正比 [图 7-S (b.) ]. 
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图 7-5 双 通 道 样品 正 态 化 前 后 的 M - A 作 图 
{al) 正 态 化 前 的 线性 相关 资料 ;{ az ) 总 体 正 态 化 后 结果 ; 
(by ) 止 态 化 前 的 非 线 性 相关 资料 ;tb ) 利 用 LOWESS 方法 局 部 止 态 化 处 理 结 果 


7.6 数据 分 析 


微 阵 列 合 适 的 数据 分 析 方 法 取决 于 实验 设计 和 研究 目的 。 微 阵列 通常 用 于 发 现 基因 ， 
阅 明 代谢 途径 和 进行 分 子 分 类 。 要 回 管 这 些 问 题 ,需要 综合 专 虚 多 个 方面 。 实 蛤 条 件 可 以 
有 多 种 ,如 不 同时 相交 察 。 这 些 条 忻 可 以 相对 独立 ,也 可 有 某 种 联系 , 共 至 是 多 种 实验 变量 
的 组 合 。 为 了 上 反映 这 些 多 样 性 ,已 有 一 些 常 用 的 方法 用 做 鉴定 这 些 变 化 的 显著 性 或 基因 表 
达 模 式 的 识别 。 这 主要 包括 监测 两 个 或 多 个 样品 基因 表达 水 平 比 值 的 表达 差异 性 (differen- 
tial expression) ,减少 维 数 并 进行 归 类 的 主 成 分 分 析 { principle component analysis) , lA Ж FB 
类 型 发 现 (class discovery ) 和 类 型 预测 ( class prediction ) B 8825 2) Br ( clustering) 和 分 类 分 析 
(classification) „ EA POE EE AER НАГА ЈАТ 25 AT o 


7.6.1 差异 表达 分 析 

差异 表达 的 基因 是 指 那些 低 或 高 表达 的 基因 。 例 如 , 与 正常 组 织 相 比 , 肿 瘤 组 织 中 相对 
高 表达 的 基因 。 微 阵列 技术 的 早期 应 用 中 (日 前 还 在 应 用 ) ,研究 差异 表达 基因 的 方法 是 将 
相同 组 织 来 源 的 两 种 样 旧 ( 如 癌症 自 常 ) 经 不 同 标记 ,混合 后 与 同一 芯片 杂交 。 筛 选 的 标 
准 通常 定义 为 1.8~2.0 人 税 。 其 比值 超过 这 个 界 值 时 被 认为 是 差异 表达 。 如 果 使 用 重复 点 ， 


———— А A $b tb E ЗР 0 


出 现 一 个 以 上 的 重复 点 的 表达 比值 超过 立信 ,这 个 基因 可 被 认为 起 差异 表达 基因 。 

这 种 倍数 变化 分 析 方 法 具有 明显 的 局 限 性 ,这 是 因为 缺乏 基因 表达 变化 数据 的 可 靠 性 
和 界 值 的 选择 标准 。 从 生物 学 角度 看 ,基因 表达 变化 的 程度 并 不 一 定 表示 会 产生 生物 学 后 
果 。 而 两 种 不 同 组 织 或 状态 下 ,一 种 仅 表 现 为 20% 变 化 划 的 基因 可 能 较 同 样 组 织 中 变化 量 
超过 2 倍 或 更 高 倍数 的 基因 更 具 生物 学 意义 。 例 如 ,信号 传导 途径 中 ,任何 细小 的 基因 表达 
量 的 变化 可 产生 明显 的 生物 学 结果 。 即 使 通过 统计 分 析 得 到 的 差异 表达 基因 ,也 会 出 吏 辕 
样 的 争议 。 另 外 , 低 表 达 基 因 的 荧光 强度 更 易 受 到 其 他 因素 如 背景 哄 音 的 影响 ,因此 低 主 度 
基因 所 受 影响 较 高 让 度 基因 大 ,需要 - .个 电大 的 界 值 才能 得 选 出 受 调节 的 基因 。 

筛选 差异 表达 基因 更 可 车 的 方法 是 利用 统计 学 原理 ,特别 是 有 重复 芯片 或 基因 点 时 。 
仅 有 为 球 不 多 的 统计 处 理 方法 可 用 来 进行 徽 阵列 的 数据 分 析 。 差 异 表达 基因 的 统计 检验 方 
法 通常 共 比 较 两 组 或 多 组 均 数 的 差异 。 如 果 仪 有 两 组 ,可 用 1 检验 ;两 组 以 上 则 常用 方差 分 
FrCANOVA) ,两 者 的 假设 都 必须 符合 正 态 分 布 。 其 统计 检验 方法 参见 第 10 Ж. 

差异 表达 统计 分 析 时 ,需要 决定 选用 单 侧 检验 还 足 双 仙 检验。 通常 分 3 种 情形 :个 研究 
组 ( 如 肿瘤 ) 较 对 照 组 表达 高 ;四 研究 组 较 对 照 组 表达 低 ;国人 研究 组 和 对 照 组 的 表达 可 高 可 
低 。 前 两 种 情况 选择 单 侧 检验 ,最 后 -种 情况 选择 双 侧 检验 。 另 一 需要 考虑 的 问题 是 界 值 
af [类 错误 )} 的 设 定 ,通常 选择 0.05。 册 于 微 阵 列 上 有 成 千 上 万 个 基因 ,尽管 1 类 错误 的 比 
例 较 小 ,但 假 阳性 的 基因 数 日 不 可 低估 。 如 10 000 个 基因 的 芯片 ,将 有 500 个 基因 的 表达 
为 假 阳 性 结果 。 这 种 错误 率 显然 与 样品 大 小 有 关 。 基 于 这 种 分 析 , 很 难 避 免 实 验 水 平 上 的 
误差 ,这 可 以 根据 下 面 的 计算 进一步 说 明 问题 。 如 果 选 择 显 著 性 水 平 为 0.05 ,每 个 基因 不 
出 错 的 概率 为 : 


Pes (EM) = 1 - p = 1 - 0.05 = 0.95 (公式 了 -9) 
因此 ,如 果 观 察 500 个 基因 ,实验 水 平 上 不 出 错 的 概率 为 : 


P. EM) = (1 - p) ” = (1 - 0.05)? = 0.95%” = 7. 275Е - 12 
(公式 了 -10) 


这 样 ,实验 水 平 引起 错误 的 概率 是 : 


P (ER) =1- (1-р) " =1- (1- 0.05)? 21- 0.95? 21 7.275Е -12 = 1 
(6711) 


就 是 说 , 含 500 个 基因 的 微 际 列 将 木 可 避免 地 出 现 错误 ,更 不 用 说 含有 上 于 或 上 万 个 基 
丹 的 情况 。 因 此 , 才 重 比较 时 常 需 要 进行 校正 ,以 降低 总 的 实验 水 乎 的 工 类 错误 的 概率 , 即 
在 基因 水 平 发 生 至 少 一 个 错误 的 概率 。 校 下 方法 中 常用 的 有 Sidak El Bonferroni 校 
正法 ,以 及 假发 现 率 控制 法 (false discovery rate controlling)! 31 和 置换 校正 法 (permutation 


correction ) o 


多 重 比较 进行 校正 的 目的 是 为 了 控制 在 实验 水 平 犯 D 类 错误 的 凡 率 ,这 个 几率 等 于 在 


Шуш EE D Ы ар ННН 


基因 水 平 犯 至 少 -个 同样 的 错误 ; 


NA 
ЕЗ 


P (80) =1 - (1 -p "aka = 1 - O - о)" 《公式 7-12) 


其 中 表示 实验 水 平 上 预期 1 类 错误 概率 {如 0.1) ,a ФЗ КЕ ТЗ, R ER 
HAHAH, 

Sidak 校正 法 的 表达 式 为 :ae = 1- (1 2e) ^, Bonferroni 校正 法 的 表达 式 为 :os = 
ax 民 。 这 两 种 校正 法 都 有 其 缺 随 性 。 因 为 当 基 因数 灵 很 大 时 ,所 要 求 的 基因 水 平 的 显 若 性 
非常 低 ,才能 保证 实验 水 平 T 类 错误 低 ; 假 设 发现 率 控制 法 在 校 十 请 值 时 不 那么 你 守 。 这 种 
方法 是 将 从 独立 检验 所 得 到 的 得 个 基因 的 p 值 由 小 到 大 依次 排列 ,然后 根据 其 位 置 得 到 - - 
个 新 的 界 值 ,方法 如 下 : 


基因 a Рә Es © Ex 
Р 值 Fi Po Рз Ut Pr 
am A a, CIR) a,QQR) а, (3/08) -- o, CR/R) 


EP p; «p «ps <: < pas ЖЕТИ E {И ЛУ ВО p 值 比较 ,那个 小 于 相对 应 的 
新 界 秆 的 p 值 被 称 之 为 最 大 p 值 (LP) EB EAR ARS ТАНА p 值 小 于 LP 时 ,本 假设 被 拒 
绝 , 因 而 被 当做 差异 表达 基因 。 例 如 当 а, (ЗИК) ТЕ KT p. .р, БАРР, юв. go. 
g 的 所 被 拒绝 ,就 是 说 存 в, 右边 的 那些 基 央 被 认为 是 没有 差异 显著 性 。 

置换 校正 法 是 更 通用 的 p 值 校 下 法。 方法 是 随机 在 对 照 或 实验 纽 中 选择 一 些 基因 . 重 
新 计算 Pp 值 。 例 如 表 了 -3 中 ,如 果 前 5 列 是 实验 组 ,其 余 为 对 照 组 ,通过 + 检验 可 计算 得 到 
各 基因 实验 组 和 对 照 组 黄 组 比较 的 p 值 。 


表 ? 了 -3 基因 差异 表达 + 检验 分 析 
基 E T, T, T, T, Т, C, C; C, C, Cs р f 
Cl 0.800 0.523 0.676 0.806 0.921 0.224 0.696 0.366 0.439 0.460 0.017 
G2 0.277 0.600 0.825 0.272 0.224 0.226 0.843 0.124 0.540 0.454 0.983 
G3 0.847 0.125 0.529 0.679 0.118 0.815 0.270 0.603 0.037 0.530 0.968 
G4 0.408 0.165 0,055 0.307 0,523 0.825 0.792 0.755 0.831 0.928 0.000 
GS 0.130 0.524 0.590 0.570 0.605 0.468 0.619 0.721 0,779 0.570 0.279 
G6 0.762 (0.538 0.356 0.961 0.319 0.165 0.104 0.543 0.430 0.639 0.223 
G7 0.468 0.872 0.604 0.289 0,205 0.098 0.004 0.153 0.236 0.974 0.383 
C8 0.562 0.939 0.976 0.424 0.948 0.670 0.150 0.529 0.430 0.67! 0.100 
C9 0.574 0.903 0.020 0.488 0.245 0.924 0.150 0.314 0.094 0.097 0.566 
GIO 0.047 0.247 0.665 0.430 0,293 0.626 0.827 0.130 0.481 0.418 0.331 
GII 0.068 0.679 0.487 0.344 0.756 0.870 0.121 0.636 0.976 0.906 0.271 
Ci2 0.957 0.454 0.730 0.026 0.358 0.389 0.589 0.612 0.107 0.311 0.591 
GI3 0.369 0.115 0.499 0.244 0,915 D.134 0.393 D.571 (0.265 0.312 0.566 
G14 0.312 0.364 0.361 0.395 0,319 0,821 0.623 0.796 0.065 0.178 0.383 
C15 0.038 0.561 0.842 0.099 0.600 0.986 0.305 0.308 0.083 0.423 0.976 


A 
* 
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RR-3 
基因 Т, T, T, T, T. C, C, C C, C, P ii 


C16 0.342 0.991 0.155 0.407 0.872 0.630 0.947 0.163 0.091 0.528 0.726. 
C17 0.963 0.359 0.117 0.880 0.520 0.513 0.246 0.410 0.578 0.410 0.441 
GIS 0.683 0.600 0.987 0.366 0.113 0.948 0.352 0.405 0.905 0.958 0.440 
сїз 0.099 0.023 0.734 0.047 0.387 0.551 0.996 0.075 0.713 0.275 0.246 
C20 1.000 0.665 0.189 0.086 0.157 0.067 0.386 0.258 0.956 0.907 0.714 


T, - T, 为 实验 组 或 处 理 组 ;0 ~ С, 为 对 照 组 


进行 置换 分 析 时 ,上 表 中 任何 一 列 既 可 当做 实验 组 ,也 可 当做 对 照 组 ,但 不 能 同时 用 于 
同 --- 个 :1 检验。 置换 校正 方法 的 过 程 如 下 :中 随机 置换 上 表 中 的 nn 列 ;加 计算 得 到 每 个 基因 
的 : 值 ; 鲍 计 算 每 个 基因 的 校正 p 值 :第 一 ,得 到 置换 后 P 值 小 于 实际 p (АА АНЫ М; 
二 ., 除 以 置换 总 数 T 了 得 到 校正 p 值 =NAT。 

值得 注意 的 是 ,必须 采用 随机 置换 大 样本 的 原则 才能 保证 此 方法 的 准确 性 。 一 般 市 言 ， 
置换 数 日 需要 在 1 000 左右 。 这 就 要 求 最 少 需要 6 个 处 理 组 样本 和 6 个 对 照样 本 。 这 种 方 
法 比较 机 械 ,没有 太 多 理论 性 可 言 。 


7.6.2 主 成 分 分 析 

数据 集中 ,一 些 数据 并 不 能 增加 有 用 的 信息 量 , 击 只 是 混淆 数据 ,这 时 需要 减少 数据 的 
维 数 (dimension) 。 微 阵列 的 数据 集 通 常 非常 大 ,含有 上 万 个 基因 ,以 及 很 多 次 不 同 实 验 的 
结果 。 得 个 基因 以 及 每 个 实验 就 可 当做 - 维 。 减 少 维 数 的 方法 有 多 种 , 主 成 分 分 析 { PCA) 
Бо НН. 

РСА 的 目的 首先 是 发 现 数据 集中 的 相关 性 变量 ,然后 转换 为 -- 弓 不 相关 的 变量 , 称 之 
为 主 成 分 。 这 些 主 成 分 分 别 代 表 线 性 相关 变量 中 最 大 变异 , 即 为 原始 变量 的 线性 组 合 。 每 
个 主 成 分 所 表达 的 信息 量 取 决 于 其 变异 。 因 此 , 主 成 分 按 变 异 大 小 依次 排列 。 研 究 者 可 以 
选择 其 中 变异 性 较 高 的 一 种 或 几 种 进行 进 “ 步 分 析 , 而 不 责 失 其 原始 信息 。 画 外 ,PCA 不 
存在 相互 作用 (或 相互 相关 性 ) ,这 样 ,研究 者 无 须 考虑 原始 变量 中 复杂 的 相互 作用 ,而 着 重 
分 析 几 个 不 相关 的 主 成 分 。 因 РСА 算法 较 复杂 ,这 里 不 列 出 详细 的 计算 过 程 ,有 兴趣 的 读 
者 可 进一步 参考 相关 的 统计 学 教材 。 


7.6.3 NEA B 

聚 类 分 析 的 目的 是 将 具有 相似 特性 的 对 象 进 行 归 类 ,这 也 可 以 看 做 减少 维 数 的 方法 之 
一 。 聚 类 分 析 并 不 是 新 建立 起 来 的 方法 ,已 有 许多 算法 用 于 表达 数据 的 分 析 。 微 阵列 实验 
中 球 类 的 基本 概念 是 将 相似 表达 的 基因 归 成 同一 种 类 型 ,然后 观察 该 类 型 的 生物 学 意义 。 
聚 类 分 析 方法 本 身 不 难 理解 , 难 的 是 如 何 理解 其 生物 学 意义 。 

许多 聚 类 算法 并 不 是 直接 基于 原始 数据 的 考虑 ,而 基 利 用 对 象 之 间 的 距离 (或 相似 性 ) 
阵列 进行 归 类 。 因 此 微 阵列 数据 分 析 中 首要 的 也 是 最 关键 的 步骤 是 选择 合适 的 距离 来 量化 
已 获得 基因 间 生 物 学 上 的 相似 性 。 有 许多 种 距离 测量 方法 ,包括 Euclidean 距离 、Euclidean 
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距离 平方 .标准 化 Euclidean 距离 .线性 相关 上 虹 离 和 Manhattan 距离 等 。 微 阵列 数据 分 析 中 常 
用 Euclidean FE Bj FlZE PE3HOSRER Bj - 

Euclidean EE 83 3 vr ob FE ЧЕЙ JE PS E RU ACRES EB ZR БЕЛ” X-T F ЖЇР A 
X-(x, x77, x, Jf Y= (y, yo on, y.) Euclidean FERE d(X Y) АТТАУ Е: 


D,CX Y) = v (x, -yy + (х, -») + + ( x, -y) = > (x -y 


(公式 7 一 13) 


举 个 简单 的 例子 来 说 明 Euclidean 距离 的 计算 方法 ,如 开 = (3, 4) 和 了 = (0,0), 


Р(Х Y) =/ (x, у) + (x у) 2 (3-0) +(4-0) = 5 
对 于 同样 的 两 个 基因 XX 和 了 ,线性 相关 距离 的 计算 方法 是 
D,(X Y) =1-R,, (公式 7 -14) 


其 中 К, EE EE A A YOLE EWA X A Y) h Pearson 相关 系数 


(x; = ж) (у y) 
R = _ хү _ iz] ` 


sy T S ⁄ n Nu a _ 
RAT TEC foc 


Pearson 相关 系数 六 的 数值 位 于 -1 和 +1 之 间 , 因 此 线性 相关 距离 总 是 位 于 0 和 2 
zl. 

IERARH NR rh Ж ЕПЗ ЖЕНИ ЖЕ, SURE TRE OO RU, ЁТ 3 个 基因 
5 次 不 同 实验 的 结果 ; 


(公式 7 一 15) 


g = (2,3,5,6,8) 
g, = (100,200,500,600,700) 
g, = (10,8,6,4,2) 
Euclidean 距离 的 计算 结果 分 别 为 : 
D,(1,2) = 1060 
D,CI,3) = 11.4 
D,(2,3) = 1063 
而 线性 相关 距离 的 计算 结果 为 : 


a a sas raana a ma mmis as uh e e sms eem meos ET yE sl 学 星 ib 
R,,- 0.98 D,(1,22) = 1 – 0.98 = 0.02 
R= -0.99 D,(1,3) =1 - ( - 0.99) = 1.99 
R,,- -0.98 D,(2,3) = 1 -(-0.98) = 1.98 


以 上 计算 结果 中 ,根据 Euclidean 距离 结果 ,g 和 g, MITA :类 ,而 线性 相关 距离 结果 
т, ДЛ g, р, 归 为 一 类 。 自 然而 然 的 一 个 问题 是 , 哪 种 方法 最 好 ?或 者 说 什么 情况 下 
适合 使 用 哪 种 方法 ? 尽管 已 尝试 的 许多 种 距离 测定 方法 在 诊 类 分 析 时 都 得 到 比较 好 的 结 
果 , 但 没有 明确 的 标准 来 根据 不 同 的 分 析 类 型 确定 距离 测定 方法 。 最 继 还 是 需要 从 生物 学 
角度 来 评 情 。 通 常 认为 ,两 个 基因 或 两 个 实验 之 间 的 距离 钱 诀 于 所 得 到 的 原始 数据 是 相对 
值 ( 如 比值 ;还 是 绝对 值 。 但 雹 论 是 相对 值 还 是 绝对 值 ,样品 (或 实验 ) 篆 类 中 所 计算 得 到 的 
Euclidean 距离 是 相同 的 ,而 基因 褒 类 的 结果 则 有 所 不 同 。 线 性 相关 距离 则 相反 ,基因 户 类 
的 结 代 相同 ,但 样品 附 类 的 计算 结果 有 所 不 同 。 

距离 除了 用 于 上 述 上 谷类 外 , 它 还 可 以 进一步 用 于 聚 类 算法 ,如 等 级 聚 类 (hierarchical 
clustering) P K – Jr E 3S (Kk - means clustering) , B|] bA [B] 2 ( inter — clusier distance ) Т 
75 ,包括 单一 连锁 fsingle linkage) ‚5с EE  ( complete linkage ) .质心 连锁 fceentroid linkage) 
和 平均 连锁 ( average linkage) 等 方法 。 单 一 连锁 ,又 称 最 小 连锁 ,是 计算 不 同 愉 的 对 象 之 同 
的 最 小 目 离 。 完 全 连锁 ,又 称 最 大 连锁 , 即 计算 所 比较 的 从 吊 成 员 之 间 的 最 大 距离 。 质 心 连 
锁 计 算 两 处 中心 之 间 的 距离 。 平 均 连锁 是 指 两 从 的 各 成 员 的 平均 距离 。 

等 级 聚 类 是 从 单 失 开始 反复 合并 两 个 最 近 的 从 或 者 从 整套 资料 开始 反复 拆 分 各 处 。 前 
PRA HARE T EA 33; (agglomerative) ,不 断 将 小 从 汇 人 太 从 。 后 者 被 称 为 由 顶 到 底 或 
分 割 法 ,将 大 从 不 断 拆 分 为 小 从。 半 : 聚 方法 相对 简单 , 先 按 两 师 配 对 计算 各 从 间距 离 , 然 后 
将 两 个 路 离 最 近 者 合并 ,接着 计算 其 他 各 从 与 新 合并 从 间 的 距离 ,再 将 距离 最 近 者 合并 ,不 
断 重 复 上述 过 程 , 提 刘 不 能 将 所 有 的 从 被 合并 到 个 大 从 为 止 。 其 基本 过 程 总 结 如 下 . 

(1) 将 每 个 基因 归 到 自己 所 在 的 从 ; 

{2) 找 出 最 近 的 从 加 以 会 并 为 - :个 新 从 ; 

{3) 上 比较 新 从 与 其 他 从 间 的 距 高 ; 

(HERIR) (3), 

举例 来 说 , 某 个 基因 在 6 种 不 同 的 实验 条 件 下 (了 , Di D, D,, D,,D,) 4 RUE E 
达 值 为 50，!100, 225, 500, 700, 800。 以 下 用 Euclidean 距离 和 质心 连锁 方法 演算 D, -~ D, 
的 聚 类 。 

首先 ,最 接近 的 两 组 数据 为 五 (50) 利 DC100) ,因此 得 到 第 一 个 从 ,其 质心 等 于 75。 


D, - D, 质心 75 


HRXPX 75, 225, 500, 700, 800 Ж тә, (700) 和 疡 (800) 最 接近 ,成 为 第 二 个 从 ， 
其 质心 为 750。 


D. - D, 质心 = 750 


FTE ШЕЕ ERF 


现在 分 析 数 组 75, 225, 500, 750, 最 相近 的 两 个 值 为 35 和 225. 得 到 质心 为 150 
的 从 。 


D. - D,- D, 质心 = 150 


重复 | 上述 过 程 ,最 后 得 到 图 7 -6 所 示 的 等 级 聚 类 图 。 等 级 聚 类 分 析 中 常 借助 Cluster 
3.0 和 Treeview 1.6 等 软件 进行 分 析 。 


р, D, D, Ds. р р, 
50 100 225 700 800 500 
7-6 等 级 聚 类 分 析 


基于 分 配 (pantition) 原 理 的 方法 与 等 级 聚 类 法 不 辣 。 这 种 方法 试图 将 数据 分 成 不 同 的 
组 ,如 -~ 均 数 聚 类 法 。 与 等 级 诊 类 法 涉 同 的 是 ,KK 均 数 聚 类 法 没有 预先 具 好 的 藉 , 而 是 以 
用 户 自 己 定 义 的 天 及 作 为 输入 参数 。 接 着 程序 随机 选择 天 个 点 作为 各 从 的 中 心 ,运算 各 种 
可 能 的 模式 ,然后 计算 出 该 中 心 到 其 他 各 从 中 心 的 距离 。 每 个 模式 与 最 接近 的 从 相关 联 。 
ЖИ ЮНГ: | 

(让 基因 被 人 为 地 区 分 为 个 质心 ,计算 各 质心 的 位 置 ， 

(2) 每 个 基因 按 最 小 距离 被 归 类 到 其 中 某 个 从 ; 

《3) 重 新 计算 各 质心 的 位 置 ; 

(4) 重 复 步 又 (2) 和 和 (3)。 

上 ~- 均 数 聚 类 法 具有 - 些 特 点 。 首 先 ,各 模式 成 员 与 各 从 的 关系 在 后 续 计算 中 可 发 生 
政变 ,而 不 像 等 级 聚 类 那样 保持 不 变 。 其 次 ,如 果 某 个 质心 设 定 值 偏 离 太 远 ,该 从 中 可 能 没 
有 成 员 。 表 次 ,由 于 初 设 质心 的 不 同 ,~ 均 数 法 不 一 定 会 得 到 同样 的 结果 。 因 此 ,有 必要 
随机 选择 几 组 质心 ,重复 上 述 过 程 , 比 较 结果 是 否 具有 了 可比 性 。 

在 讨论 应 类 分 析 的 最 后 ,有 必要 指出 的 是 ,不 能 高 估 聚 类 分 析 的 价值 。 首 先 ,得 到 一 个 
从 或 树 状 图 通常 难以 回答 所 府 及 的 后 物 学 何 题 。 尽 管 聚 类 分 析 可 用 于 类 型 发 现 ,但 通常 对 
于 类 型 比较 和 类 型 预测 其 效力 不 够 。 其 次 ,由 于 基因 表达 谱 涉 及 数 二 个 基因 ,所 用 的 算法 也 
有 别 , 测 定 的 距离 值 也 有 不 同 ,因此 聚 类 分 析 是 相对 主观 性 的 。 再 次 , 聚 类 分 析 不 能 旨 供 统 
计 学 上 有 关 不 同类 别 中 基因 表达 差异 的 真实 的 定量 信息 。 最 后 , 聚 类 图 只 是 提供 一 种 拓扑 
结构 信息 , 革 个 从 中 基因 的 次 序 和 各 时 的 排列 顺 冶 并 不 代表 有 几 的 优 息 。 通 常 聚 类 分 析 只 
是 为 某 种 决策 提供 支持 性 的 工具, 而 不 是 决策 性 的 。 
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以 上 所 述 的 等 级 聚 类 和 天- 均 数 聚 类 分 析 从 机 器 学 习 (machine learning) 的 角度 都 属于 


未 监测 (uasupervised) 类 型 , 即 其 分 类 预先 末 知 。 如 果 在 对 不 同类 型 标本 进行 微 阵列 分 析 
HE, TEASE 225 BI Wr F ( supervised ) 进行 判别 分 析 ( discriminant analysis 或 classifica- 
tion) ,这 在 建立 类 型 预测 器 时 很 重要 。 常 用 的 方法 有 权重 投票 (weighted voting) K- БЫЛАН 
Pa CK — nearest neighbors) .支持 性 矢量 机 器 {support vector machine, SVM) 等 。 


10 


11 


12 


13 


GAJE Ж # & S) 
$ ж x Wk 


Schena M, Shalon 0, Davis RW, et al. Quantitative monitoring of gene expression patterns 
with а complementary ОМА microarray. Science, 1995 ,270; 467 
Lockhart DJ, Dong H, Byrne MC, et al. Expression monitoring by hybridisation to high — 
density oligonucleotide arrays. Nat Biotechnol, 1996, 14:1 675 
Okamoto T, Suzuki T, Yamamoto N. Microarray fabrication with covalent attachment of DNA 
using bubble jet technology. Nat Biotechnol , 2000,18; 438 
Schena M, Shalon D, Heller R, et al. Parallel human genome analysis: microarray — based 
expression monitoring of 1 000 genes. Proc Nal AcadSci USA, 1996, 93: 10 614 
DeRisi JL, [yer VR, Brown РО. Exploring the metabolic and genetic control of gene expres- 
sion on a genomic seale. Science, 1997, 278; 680 
Tusher VG, Tibshirani R, Chu C. Significance analysis of microarrays applied to the ionizing 
radiation response. Proc. Nail Acad Sci USA, 2001,98.5 116 
Golub TR, Slonim DK, Tamayo P, et al. Molecular classification of cancer: class discovery 
and class prediction by gene expression monitoring. Science, 1999, 286; 531 
Alizadeh AA, Eisen MB, Davis RE, et al. Distinct types of diffuse large B – cell lymphoma i- 
dentified by gene expression profiling. Nature, 2000, 403; 503 
Bittner M, Meltzer P, Chen Y, et ај. Molecular classification of eutaneous malignant melano- 
ma hy gene expression profiling. Nature, 2000, 406; 536 
Lee МІТ, Кио FC, Whitmore GÀ, et al. Importance of replication in microarray gene ex- 
pression studies; statistical methods and evidence from repetitive cDNA hybridizations. Proc 
Natl Асай Sei USA, 2000, 97: 9 834 
Schuehhardr J, Beule D, Malik А, et al. Normalization strategies for СОМА microarrays. 
Nucleic Acids Res. 2000, 28; E47 
id kZ. Rectangular confidence regions for the means of multivariante normal distributions. J 
Ат Stat Assoc, 1967, 62. 626 
Benjamini Y, Yekutieli D. The control of the false discovery rate in multiple testing under 
dependency. Ann Stai, 2000, 29. 1 165 


Жа dd ЕК Fa Sk Eb ph ss . DTE 


第 8 章 进化 遗传 学 和 统计 遗传 学 


进化 遗传 学 (phylogeneties ) 又 称 系统 发 和 学 ,是 研究 物种 进化 关系 
的 科学 。 进 化 遗传 分 析 就 足利 用 数学 .统计 方法 对 这 种 进化 关系 进行 
排 断 ,是 生物 信息 学 的 重 次 内容. 也 是 比较 革 央 组 学 .看 百 组 学 研究 的 
重 雪 丁 具 。 进 化 遗传 学 中 进化 树 的 分 枝 状 结构 (claqdistics) GRAP А 
REJE] ( pedigree map) 的 结构 相似 ,所 用 的 运算 法 则 也 类 似 , 但 后 者 主要 
用 上 下 遗传 方式 的 确定 .连锁 分 析 利 得 传 咨询 。 一 些 与 进化 遗传 分 析 相 
关 的 澡 用 软件 如 Clostalw ,已 伯 第 5 章 措 述 ,， 森 章 主 要 阅 述 其 运算 法 则 
ЖИТ ЖЕЗ 

$56 L| t fe S (statistical geneties) 是 20 世纪 40 年 代 建 立 起 来 的 中 
传 学 分 支 , 它 漂 盖 遗传 学 的 常用 数 埋 统计 方法 ,特别 是 遗传 流行 病 学 
( genetic epidemiology) ЖЗ ЛЕ population genetics) 15 46 DA А 
H:( risk assessment) 中 所 涉及 的 计 等 方法 ,也 足 生 物 信 息 学 的 重要 内 
容 , 已 被 广泛 用 于 复杂 性 状 的 遗传 分 析 .药物 基因 组 学 研究 .人 类 学 研 
完 和 遗传 咨询 。 随 着 人 类 基因 维 计 划 的 完成 ,统计 遗传 学 在 基因 组 水 
平 有 了 更 进一步 的 发 展 ,省 牛 了 一 门 新 的 分 支 学 科 一 一 统计 基因 组 学 
(statistical genomics) | 又 称 计算 基因 组 学 ( computational genomics ) 2X J£ 
因 组 生物 信息 学 (genomie bioinfonnatics) ] 。 广 义 的 统计 遗传 学 或 统计 
基 内 组 学 调 盖 了 微 阵 列 或 基因 芯片 数据 处 理 方 法 ,该 领域 也 逐渐 形成 
了 生物 信息 学 的 另 -重要 分 支 , 即 微 阵 到 生物 信息 学 (microarray bioin- 
formaties) 。 相 关内 容 在 第 7 章 已 作 介 绍 . 


8.1 ATHE SEHE IEA 


8.1.1 进化 钟 和 看 白质 演变 速率 “ 
人 类 进化 过 程 中 ,出 现 过 无 数 次 基因 重复 和 和 和 白 然 选择 ,其 结 采 是 基 
罗 家 族 成 员 中 每 个 基因 的 碱 基 序 列 发 生 某 此 改变 。 根 据 所 涉及 的 三 联 


— M os E hd La i 


SERO T CES RUE EE, fE TR rap KE UL SR Dur CIRCO DU ERR uk ЖК АЕ RERE), ЖЕ | 
质 进化 分 析 中 AR RERA ERER. WHEE evolutionary clock) НИ ЖЕЕ Ж 
特定 电 包 质 在 进化 过 程 中 累积 突变 的 速率 , 即 演变 如 率 { rate of divergence). {ЛЕН ҖЕ XR 
每 百 万 年 中 差异 出 现 的 百分数 ,通常 以 共 倒 数 来 表示 , 凤 每 出 现 196 mp3 X Bess B3 E JJ TE B 
数 日 ,简称 进化 期 单位 (unit of evolutionary period ，UEP)。 例 共通 过 比 对 分 析 , 发 现 珠 蛋白 
在 大 约 85 五 万 年 间 氨 基 酸 的 演变 速率 为 1096 ,因此 ,其 进化 钟表 示 为 0.118 锡 / 自 万 年 ,或 
等 于 8.5UPEP。 划 果 人 珠 蛋 所 的 平均 演变 速率 约 为 0.096% 7 712] SE CXV. 10. AUEP) , SUB 4S 
有 和 8 珠 重 昕 之 问 和 氨基 酸 的 差异 约 为 3.7 久 ,那么 这 两 个 基因 出 现 演 变 的 时 间 约 在 10.4 х 
3.7 -39( AAF- ) HU. 


8.1.2 核酸 分 子 的 演变 和 模型 

与 个 宾 质 的 演变 相似 , 校 酸 也 经 历 相 似 的 分 子 进化 过 程 。 但 只 涉及 4 种 核 芋 酚 之 间 的 
改变 ,相对 20 种 氨基 酸 之 间 的 变化 性 要 少 . 在 第 5 Жї, 我 们 讨论 了 DNA 和 КМА 序列 分 析 
的 方法 ， 了 解 到 不 同 种 系 间 DNA 和 RNA 许 列 的 异同 是 我 们 构建 进化 树 的 依据 之 -。 在 分 
子 进化 研究 中 ,我 们 往往 首先 假定 各 序列 是 同 源 的 ,它们 盘 且 有 单一 祖先 序列 。 这 一 :祖先 序 
列 在 进化 过 程 中 发 生 了 -- 系 列 的 核定 酸 突变 ,从 而 导致 各 序列 之 记 出 现 差 异 , 这 种 差异 在 
分 子 进化 研究 中 以 遗传 距离 表示 。 表 8 -1 表示 了 各 种 核 件 酸 的 演变 情况 。 在 以 上 假设 的 
基础 上 ,Judes 和 Сашог 进一步 假设 每 一 碱 基 突 变 为 男 外 3 种 碱 基 中 的 任何 一 种 的 几率 相 
同 , 其 频率 常数 为 3 ,4 为 碱 基 蔡 的 频率. Kimura" А З FE ( transition , Б Ap EE ШЕ т р] 
TRUE pd kE Z [В] А0 ЭЕ 205) ТАЕ ( transversion ,个 嘱 啶 利 一 个 味 叭 碱 基 之 间 的 罕 变 ) 具有 不 
同 的 频率 , 即 和 6 &8-2 ЖЮН ТЫ) ЕРДЕ. 


98-1 同 源 序列 间 的 核 音 酸 置 换 


祖先 序列 同 源 序 列 1 EPEE FI] 2 iC ATE Pf 

À А x A О mE 
C C С>А P — АА (single substitution) 

T T 1 

G G G 

А A>C>T À Ж ЧОЕ {multiple substitution ) 

А А А 

C C >G C > À [в] 3 W (coincidental substitution ) 
G G G 

T T> A T> dE ( parallel substitution ) 

А А А 

А A >Ü > T À >'[ ЖА ЕА ( convergent substitution) 
C С C 

G G G 

C C C>'T>C 回复 置换 【back substitution) 
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X 8-2 Judes - Cantor 88 PHAM (E Е) 和 上 imura (ТЕ) 
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8.1.3 遗传 距离 的 计算 方法 


AS D pt Ж, Judes ЯП Cantor 提出 了 ОМА 序列 距离 (最 早 为 氮 基 酸 序 列 延 伸 
而 来 ) 计 算 公式 ， 


_ 3 _ 4 ү МК 
К = част) 2р4 【公式 ) 


其 中 9 为 同 源 DNA 序列 中 具有 相同 碱 基 的 概率 ,经 过 ; 世代 ,市 于 祖先 序列 的 趋 异 变化 ,其 
值 为 : 


_ 1 3 8 8-2 
q = +401 8) 【公式 ) 


p. 为 碱 基 蔡 换 频率 。 

距离 K 适用 于 显示 两 条 序列 从 - :个 祖先 序列 趋 异 进化 以 来 的 时 间 ,并 能 用 于 序列 同系 
统 树 的 构建 。 在 计算 时 , 均 需 要 将 序列 作 初 步 的 列 线 分 析 。Kimara 在 其 两 参数 模型 下 证 
裤 , 用 于 趋 异 变化 ,由 转换 造成 差异 ( 工 型 变化 ,P) 或 由 颠 换 造成 差异 ( 工 型 变化 ,Pr ) 998 
基 , 随 时 间 而 变化 : 


(1-6 9*) (公式 8 一 3) 


ШЖ ЁК = +28 是 单位 时 间 碱 基 替 换 的 总 频率 , 则 遂 合 作为 系统 树 的 距离 尺度 为 ; 
K =- 3In[ (1 - 2P, - Р) /1 -2Ру] = 24 (公式 8 -4) 


该 类 距离 可 用 于 有 关系 统 树 距 启 矩阵 中 。 用 样本 比值 代入 公式 8 -4 就 可 估计 这 些 
距离 。 
DNA ЕЗ Е К 又 称 为 DNA 序列 间 的 演变 度 ,是 序列 间 相 异性 的 一 个 指标 。 恒 日 奈 


: 


序列 的 演变 度 分 为 两 序列 同 义 变化 的 演变 度 (KS) 和 非 同 义 变化 的 演变 度 (KA) ,根据 Jukes — 
Cautor 单 参 数 模型 和 Kimura. 了 其 参数 模型 等 遗传 模型 ,可 以 分 别 计算 得 到 两 订 列 的 演变 度 
(或 称 为 蛋白 质 序列 问 的 距离 ) o 


8.2 进化 遗传 模型 


进化 遗传 学 研究 的 是 进化 关系 ,进化 遗传 分 析 就 是 要 排 断 或 者 评估 这些 进 化 关系 。 通 
过 进化 遗传 分 析 所 推断 出 来 的 进化 关系 : 般 几 分 枝 图 表 ( 称 为 遗传 树 ,又 称 进化 树 ) 来 描 
述 ,包括 了 分 子 进化 (基因 树 ) .物种 进化 以 及 分 子 进 化 和 物种 进化 的 综合 3 种 类 型 。 在 现 
代 进 化 遗传 学 研究 中 ,研究 的 重点 已 经 不 再 是 生物 的 形态 学 特征 或 者 其 他 特性 ,而 共生 物 大 
分 子 尤其 是 蛋白 质 或 核酸 序列 的 进化 特征 。 由 于 进化 的 发 生 是 已 经 完成 的 历史 ,因而 无 法 
表现 , 只 能 依靠 建立 的 数据 模型 去 模拟 真实 的 进化 过 程 ,然后 假定 现 有 序列 之 阅 的 差异 是 
基于 模拟 的 进化 结果 。 :个 王 确 的 进化 模型 应 能 到 映 真实 的 进化 过 程 ， 并 有 助 于 我 们 绘制 
出 湛 确 的 遗传 树 。 

进化 遗传 的 建树 方法 都 会 预先 假定 :个 进化 模型 。 比 如 ,日 前 广泛 使 用 的 方法 都 假定 
进化 的 演变 是 分 枝 型 的 ,因此 我 们 可 以 用 树 状 拓扑 发 生 图 来 摘 述 相关 数据 问 的 汗 变 关系 。 
但 是 在 一 个 给 定 的 数据 组 中 ,因为 存在 阁 物 种 的 杂交 以 及 物种 之 间 遗 传 物 质 的 传递 ,这 个 假 
定 很 可 能 会 被 推翻 。 因此 , 如 果 所 观察 的 译 列 并 非 是 严格 遵循 物种 内 的 和 焉 传 规律 的 话 ,所 用 
的 进化 遗传 方法 就 会 得 到 错误 的 结果 - 进化 遗传 分 析 引 加 有 的 模型 需要 以 下 的 假定 : 员 序 
州 有 指定 的 来 源 并 旦 正确 无 误 ”。 仿 序列 是 同 源 的 (也 就 是 说 ,所 有 的 序列 都 起 源 于 同一 
祖先 序列 ) ;这 些 序列 不 是 同系 物 (paralog) 的 混合 物 。 序 列 比 对 中 ,不同 序列 的 同一 个 位 点 
都 是 司 涯 的 。 加 在 接受 分 析 的 一 个 序列 组 中 ,序列 之 间 的 进化 遗传 中 是 相同 的 (比如 ,序列 
中 不 存在 细胞 核 序 烈 与 细胞 器 序列 的 混合 ) 。 中 序列 中 的 所 有 位 点 的 进化 都 是 随机 的 。 疗 
到 中 的 每 一 个 位 点 的 进化 都 是 独立 的 。 加 样本 序列 之 间 的 差异 包含 了 足以 解决 感 兴趣 问题 
的 进化 遗传 信号 。 


8.3 遗传 树 的 构建 


根据 DNA aX КМА 或 蛋白 质 } 的 序列 或 结构 差异 关系 可 构建 遗传 树 , 又 称 分 子 进 化 酝 
C evolutionary tree) RHE ATE í phylogenetic tree) 。 进 化 树 给 出 分 支 层次 或 折 扑 图 形 ,每 
个 节点 (node) 是 产生 新 的 基因 复制 或 京 有 共同 祖先 的 生物 体 的 演变 点 的 一 种 反映 。 树 枝 
的 长 度 表 示 当 这 些 事件 发 生计 就 存在 的 ОМА 序列 与 后 出 现 的 DNA T5 7 fa] B9] 3i ERR BR 
根据 进化 树 不 仅 可 以 研究 从 单 细 胞 有 机 体 到 多 细胞 有 机 体 的 生物 进化 过 程 ,而 且 可 以 粗略 
个 计 现存 的 各 类 种 属 生物 的 演变 时 间 。 通 过 DNA 的 分 子 进化 树 分 析 , 为 从 分 子 水 平 研 究 物 
种 进化 提供 了 新 的 手段 ,可 以 比较 精确 地 确定 某 物 种 的 进化 地 位 。 对 于 物种 分 类 问题 ,DNA 
的 分 子 进化 树 亦 可 作为 一 个 重要 的 依据 。 


ТТЕ ЛТ ГГ: Do men 


ЕЛЕ rooted) AH (unrooted) Bi. EIR -1 中 是 示 4 个 物种 A,B,C,D 两 种 
ЖЖП -种 无 根 树 的 表示 方式 。 有 根 树 反映 了 树 上 物种 或 基因 的 时 间 顺 主 ,而 无 根 树 只 
反映 分 类 单元 之 间 的 距离 而 不 涉及 谁 是 谁 的 祖先 问题 - 用 子 梅 建 遗 传 树 的 数据 有 两 种 类 
型 ,一 种 是 特征 数据 (character data) , 它 提供 了 单个 基因 ,个体 .群体 或 物种 的 信息 ;二 是 距 
离 数据 (distanee data) 或 相似 性 数据 (similarity data) , 它 涉及 的 则 是 成 对 基 内 .个 体 .群体 或 
物种 的 信息 ,参见 8.1.3 节 。 距 离 数 被 可 由 特征 数据 计算 获得 ,但 反 过 来 则 不 行 。 这 些 数据 
可 以 矩阵 的 形式 表达 。 肥 离 算 阵 { distance maris) F fer 9r 18 5 НОВЕ ga Xd enl 13x30 o 
距离 的 计算 总 体 上 基 要 依据 --- 定 的 遗传 模型 ,并 能 够 表示 婴 两 个 分 类 单位 间 的 变化 量 。 系 
统 树 的 构建 质量 则 依赖 于 第 离 估 算 的 准确 性 。 


A B c D A B í D 
B, D 
А C 


88-1 4 个 物种 (A.BC 入) 和 的 2 种 有 根 树 积 1 种 无 根 树 形式 


在 此 , 我 们 主要 讨论 构建 序列 进化 树 的 一 般 步 骤 , 包 括 建立 数据 各 型 (序列 比 对 ) s 
SUCCUM .建立 进化 树 以 及 进行 进化 树 评 佑 等 。 


8.3.1 建立 数据 模型 

建立 -- 个 比 对 模型 的 基本 步骤 包括 : 选 拌 合适 的 比 对 程序 ;然后 从 比 对 结果 中 提 坡 进化 
小传 的 数据 集 。 至 于 如 何 提 取 有 效 数 据 , 取 决 于 所 选择 的 建树 程序 如 何 处 理 容易 引起 演变 
的 比 对 区 不 和 捅 人 7 缺失 序列 ( 即 所 谓 的 indel 状态 或 者 空位 状态 ) 。 

一 个 典型 的 比 对 过 程 包括 :首先 应 用 Clustalw 程序 ,然后 进行 手工 比 对 ,最 后 提交 给 一 
个 建树 程序 。 这 个 过 程 有 如 下 特征 :中 部 分 依赖 于 计算 机 (也 就 是 说 ,需要 手工 调整 ) LODS 
此 一 个 先 验 的 进化 遗传 标准 ( 即 需 要 -个 前 导 树 ); 介 使 用 先 验 评估 方法 和 动态 评估 方法 
《推荐 ?对 比 对 参数 进行 评估 ;地 对 基本 结构 (序列 ) 进行 出 对 ( 对 于 亲 水 氢 基 酸 , 推 荐 引 人 和 人 部 
分 二 级 结构 特征 ) ;名 应 用 非 统计 数学 方法 优化 。 这 些 特征 选项 的 取舍 依赖 于 进化 选 传 分 
析 方 法。 有关 比 对 方法 参见 第 $ 章 。 


8.3.2 决定 取代 模型 
取代 模型 即 影 响 比 对 ,也 影响 建树 ,因此 需要 并 用 递归 方法 。 对 于 核 某 酸 数 据 而 言 ,可 


re mam iem a m na алиде. яле ш. A d ds ss . + & Ed fz Eg D 


以 通过 取代 模型 中 的 两 个 要 素 进行 计算 机 评估 ,但 是 对 于 氨基 酸 和 密码 子 数据 而 言 ,没有 什 
么 评估 方案 。 其 中 一 个 要 素 是 碱 基 之 间 相 互 取 代 的 模型 ;另外 一 个 要 素 是 序列 中 不 同位 点 
的 所 有 取代 的 相对 速率 ,还 没有 一 种 简单 的 计算 视 程 序 可 以 对 较 复 杂 的 变量 { 比如 ,位 点 
特异 性 或 者 系统 特异 性 取代 模型 进行 评估 ,同样 , 现 有 的 建树 软件 也 不 可 能 理解 这 些 复杂 
变量 。 


8.3.3 建树 方法 

3 种 主要 的 建树 方法 分 别 是 遗传 距离 建树 法 .最 大 似 然 法 {maximum likelihood, МІ.) 和 
最 大 节约 法 (maximum parsimony, MP), 

8.3.3.1 基于 遗传 距离 的 建树 方法 

距离 树 考 察 数据 组 中 所 在 序 列 的 两 两 比 对 结果 ,通过 序列 两 两 之 间 的 差异 决定 进化 科 
的 拓扑 结构 和 和 树枝 长 度 。 趾 离 方 阵 用 来 简单 地 计算 两 个 序列 的 差异 数量 值 。 这 个 数量 值 被 
看 做 进化 啤 离 。 其 准确 性 大 小 恢 顿 于 进化 模型 的 选择 。 然 后 运行 一 个 聚 关 算 法 ,从 最 相似 
(也 就 是 说 ,两 者 之 间 的 距离 最 短 ) 的 序列 开始 ,通过 距离 信 方 阵 计 算出 实际 的 进化 树 , 或 者 
通过 将 总 的 树枝 长 度 最 小 化 而 优化 出 进化 树 。 | 
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突变 达到 饱和 时 ,演变 程度 就 会 达到 上 限 。 一 -对 演变 序列 之 一 在 某 个 特定 位 点 发 生 突 变 后 ， 
后 续 的 突变 不 管 发 生 在 哪 一 条 序列 ,都 不 宇 再 造成 更 多 的 差异 。 实 际 .+ ,后 续 的 变异 很 可 能 
会 使 得 前 一 个 位 点 恢复 成 相同 的 状态 ,从 而 屏 责 掉 前 -个 突变 ,因此 , 绝 大 多 数 基于 距离 的 
建树 方法 都 会 针对 这 种 "不 可 见 ” 的 替换 进行 修正 。 在 实际 操作 中 ,使 用 的 速率 方 阵 可 有 效 
地 假定 :在 所 观察 的 相同 的 碱 基 对 中 ,实际 上 存在 一 定 比 例 的 位 点 ,这 些 位 点 经 受 了 多 次 突 
变 ,而 且 , 随 着 整个 序列 姜 异 程度 的 增加 , 这 些 位 点 的 比例 也 在 增加 。 有 些 程序 (至少 是 随 
意 地 ) 会 计算 出 不 正确 的 距离 ,比方 说 ,MEGA 程序 只 针对 密码 子 和 和 氨基酸 数据 会 计算 
出 错误 的 距离 :除非 序列 的 整体 差异 程度 很 小 ,事实 上 ,这 个 程序 肯定 会 得 到 铺 误 的 计算 
结果 。 

双重 序列 差异 使 用 最 大 似 然 法 的 取代 速率 来 计算 。 最 常用 的 距离 建树 程序 使 用 的 模型 
局 限于 时 间 可 道 模型 ,只 包含 很 有 限 的 几 个 取代 模型 ;但 是 PAUP 4.0 基本 上 能 测试 时 间 可 
闭 模 型 的 所 有 变化 ,包括 用 最 大 似 然 方法 从 数据 中 评 佑 得 到 的 实际 模型 ,以 及 针对 非 静 态 数 
据 的 邮 离 建树 方法 所 得 到 的 模型 。 

与 最 太 似 然 法 相 比 ,距离 建树 方法 的 计算 强度 很 小 ,但 是 可 以 使 用 序列 进化 的 相同 模 
型 ,这 是 其 最 主要 的 优点 。 该 法 的 缺点 是 屏蔽 了 真实 的 特征 数据 。 最 常用 的 距离 建树 方法 
是 "不 加 权 配 对 组 算术 均 数 ”(UPCMA ,unweighted pair group method with arithmetic mean) 、 
相 邻 连接 方法 (NJ , neighbor joining) 和 对 旋 离 进化 树 的 附加 值 进 行 优化 的 方法 ,包括 最 小 进 
化 证 法 (ME minimum evolution) 。 有 些 方法 被 多 个 软件 包 引 用 ,但 是 在 合用 时 不 一 定 会 使 
用 相同 的 指定 参数 和 (或 ) 进 化 树 优 化 特征 。 

(1) 不 加 权 配 对 组 算术 方法 (UPGMA) | UPGMA 是 一 种 沫 类 或 者 说 是 分 类 方 靶 。 它 按 
手 配 对 序列 的 最 大 相似 性 和 连接 配对 的 平均 值 将 进化 树 的 树枝 连接 起 来 。 它 不 是 一 种 严格 
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的 时 候 ,我 们 才 会 期 望 UPCMA 产生 -个 拥有 真实 的 树枝 长 度 的 准确 的 拓扑 结构 。 正 如 前 
面 讨论 的 那样 ,在 实际 应 用 中 很 少 会 遇 到 这 种 情况 。 

(2) ЖН МЈ) 相 邻 连接 算法 在 距离 建树 中 经 常会 用 到 ,而 不 在 平 使 用 什么 样 
的 优化 标准 。 完 全 解析 的 进化 树 是 甫 过 对 完全 没有 解析 的 “是 型 "进化 树 进行 “分 解 ” 得 天 
的 。 分 解 的 步骤 是 连续 不 断 子 在 最 接近 (实际 上 是 最 孤立 的 ) 的 序列 对 中 播 人 树枝 ,而 保留 
进化 树 的 终端 。 于 是 ,最 接近 的 序列 对 被 强化 了 ,而 " 果 型 "进化 树 也 被 改善 了 ,这 个 过 程 将 
不 断 重复 。 这 种 方法 运算 很 快 ,也 就 是 涪 , 对 于 一 个 50 个 序列 的 进化 树 ,只 需要 区 十 秒 甚 至 
更 短 时 间 . 

(3) Fitch - Margoliash 算法 (FM) ЕМ 法 设法 将 所 有 可 能 观察 到 的 距离 相对 于 进化 树 
中 所 有 可 能 的 路 径 蕉 度 的 偏差 的 平方 极 小 化 ,将 进化 树 中 观察 到 的 双重 距离 的 合适 度 极 太 
I. A - 些 变量 ,在 如 何 对 误差 进行 加 权 的 处 理 二 不 太一 样 。 对 变化 的 个 计 值 并 非 是 完 
全 独立 的 ,因为 所 有 的 进化 树 内 部 的 树枝 中 存在 的 误差 都 至 少 被 计算 了 两 次 “!。 

(4) 最 小 进化 方法 ME) 最 小 进化 方法 先 使 用 与 tM 相同 的 方式 计算 出 路 径 长 度 , 然 
后 根据 路 径 长 症 优 化 出 最 和 的 进化 村 ;也 就 是 说 , 它 要 求 将 观察 到 的 距离 相对 于 基于 进化 树 
距离 的 偏差 平方 最 小 化 5 5 FM 法 不 同 的 是 ,ME 方法 并 不 使 用 所 有 可 能 的 双重 序列 距 
离 和 所 有 可 能 的 相关 的 进化 树 路 径 长 度 , 而 是 先 和 根据 到 外 层 节 点 的 距离 固定 进化 树 内 部 节 
点 的 位 置 ,然后 根据 这 些 观察 点 之 间 的 最 小 计算 误差 ,对 内 部 的 树 校 长 度 进行 优化 。 央 此 ， 
这 种 方法 可 能 消除 了 FM 计算 的 依赖 性 。 

(5) 点 离 建树 软件 的 评价 МЕ 和 FM 似乎 是 最 好 的 程序 ,它们 在 模拟 研究 中 的 得 分 儿 
FHA. ME 在 计算 机 程序 中 的 应 用 越 来 越 广泛 ,包括 METREE * 和 PAUP 都 在 使 用 
ME。 对 于 蛋白 质数 据 ,PHYHP 中 的 FM 程序 提供 了 最 多 的 时 间 可 道 由 代 模 型 ,但 是 没有 对 
位 点 内 部 的 取代 速率 差异 进行 修正 。MEGA 和 METREE 软件 包含 有 一 个 针对 和 蛋白质 的 修 
下 ,这 种 方法 只 有 当 演 变 度 很 小 时 才 合 理 。 

模拟 研究 指出 ,对 于 一 个 大 范围 的 进化 树 形状 空间 ,UPGMA 的 可 操作 性 很 差 。 我 们 并 
不 赞成 使 用 这 种 方法 ,而 之 所 以 在 这 里 会 提 及 这 个 方法 ,是 因为 目前 的 出 版 物 上 经 常会 出 现 
UPGMA 的 应 用 ,这 -点 可 以 由 当前 的 出 版 物 中 出 现 的 UPGMA* 基因 进化 树 ” 证 明 "。 

很 显然 ,NJ 是 最 快 的 程序 ,并 且 所 产生 的 进化 树 同 ME 进化 树 相 比 , 虽 不 能 说 一 样 ,但 
也 已 经 非常 相近 了 “-。 但 是 ,NJ 只 产生 一 个 进化 树 。 根 据 数据 结构 ,有 类 量 不 同 的 进化 树 ， 
可 能 和 NJ 进化 树 … 样 好 ,甚至 比 NJ iyan EE 

8.3.3.2. 最 大 似 然 性 建树 方法 

弗 太 似 然 二 法 考察 数据 弓 中 序列 的 多 重 比 对 结果 ,优化 出 拥有 一 定 丘 扑 结构 和 树枝 长 
度 的 进化 树 ,这 个 进化 树 能 够 以 最 大 的 概率 导致 考察 的 多重 比 对 铬 果 。 最 天 似 然 法 系统 树 
的 构建 试图 避免 其 他 方法 的 局 限 性 ,尽管 它 需 要 的 计算 量 大 得 惊人 。 与 虑 离 矩 阵 法 不 同 , 似 
然 法 充分 有 效 地 利用 所 有 资料 而 不 是 将 资料 简 缩 为 上 诈 离 的 集合 .它们 与 简 纺 法 的 不 周 之 处 
在 于 其 进化 慨 率 模型 采用 了 标准 的 统计 方法 1。 当 考 虚实 施 最 大 似 然 法 时 ,该 方法 先 假定 
系统 树 的 形式 ,然后 选择 分 枝 长 度 以 使 产生 特定 系统 树 的 资料 的 似 然 值 最 大 化 。 通 过 比较 
不 同系 统 树 的 似 然 函数 值 ,将 具有 最 大 似 然 值 的 系统 树 看 敌 最 佳 佑 计 。 一 个 直接 的 问题 是 
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随 着 OUT 的 增加 , 系统 树 的 数 日 讯 速 增加 。 当 树 端 有 具有 个 OUT 时 ,无 根 树 的 数 昌 为 
(2n -5)1 /[2( n -3)!]. RA n 个 树 端 的 有 根 森 数 日 与 县 有 n+1 个 树 端的 无 根 树 数 日 
相同 。 实 际 应 用 时 ,只 研究 所 有 系统 树 的 一 个 亚 集 。 对 于 DNA 序列 资料 , 伺 然 法 依据 的 模 
型 规定 了 在 特定 时 间 内 由 于 突变 使 一 个 序列 变更 为 另 一 序列 的 概率 。 尽 管 DNA 序列 中 的 
吐 邻 碱 基 不 是 独立 的 ,但 是 模型 的 确 假定 了 不 同位 点 上 进化 的 独立 性 ,从 币 某 系统 树 上 一 组 
序列 的 概率 就 是 序列 上 每 一 位 点 概率 的 乘 税 。 

8.3.3.3 最 大 节约 法 建树 方法 

最 大 节约 方法 考察 数据 组 中 序列 的 多 重 比 对 结果 ,优化 出 的 进化 树 能 够 利用 最 少 的 离 
散步 骤 太 解释 多 重 比 对 中 的 碱 基 差 异 。 用 最 大 节约 方法 搜索 进化 梧 的 原理 是 要 求 用 最 小 的 
改变 来 解释 所 要 研究 的 分 类 群 之 间 观 察 到 的 差异 。 


8.3.4 遗传 树 搜索 

单一 的 遗传 树 的 数量 会 随 着 分 类 样 数量 的 增长 而 旦 指数 增长 ,从 而 变 为 -个 天 文 数 了 。 
由 于 计算 能 力 的 限制 ,现在 一 般 只 允许 对 很 小 -部 分 的 可 能 的 遗传 树 进 行 搜索 。 具 体 的 数 
日 主要 依赖 于 分 类 群 的 数量 .优化 标准 .参数 设 定 ,数据 结构 .计算 机 硬件 以 及 计算 机 软件 。 
有 两 种 搜索 方法 可 保 让 找到 最 优化 的 遗传 树 : 穷 举 法 和 树枝 跳跃 法 (BB)。 对 于 一 个 很 大 的 
MEE ,这 两 种 方法 都 很 不 实用 。 对 分 类 群 数 基 的 限制 主要 取决 于 数据 结构 和 计算 机 速度 ， 
但 是 对 于 超过 20 个 分 类 群 的 数据 集 ,BB 方法 很 少 会 得 到 应 用 。 穷 举 法 要 根据 优化 标准 ,对 
每 一 个 可 能 的 进化 树 进行 评估 。BB 方法 提供 - -个 逻辑 方法 ,以 确定 那些 进化 树 值 得 评估 ， 
而 另 一 些 进化 树 可 被 简单 屏蔽 。 央 此 BB 方法 通常 要 比 穷 举 法 快 得 多 。 

绝 大 多 数 分 析 方 法 都 使 用 “启发 式 "的 搜索 。 启 发 式 先 搜索 出 相近 的 次 优化 的 进化 树 
Zk ds" ) ,然后 从 中 得 到 优 斤 (山顶 * )。 不 同 的 算法 用 不 同 程 嵌 的 精确 性 搜索 这 些 
岛 此 利 上 项 。 最 彻底 也 是 最 慢 的 程序 (TBR tree bisection — reconnection , 进化 树 对 分 重 接 ) 
足 先 把 进化 树 在 每 一 个 内 部 树枝 处 壁 开 ,然后 以 任意 方式 将 辟 开 的 本 片 重新 组 合 起 来 。 最 
快 的 算法 具足 检查 .下 相 邻 终端 的 不 太 重 要 的 重新 组 合 ,因此 颁 癌 于 找到 最 近 的 岛屿 的 山 
1, 
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E ,数据 结构 .时间 基 .硬件 分析 目的 ) OK д, ЗСЗ НЕЕ -个 简单 可 行 的 方案 。 因 此 进行 
搜索 的 用 户 必须 对 数据 非常 熟悉 有 明确 的 日 标 , 了 解 名 种 各 样 的 搜索 程序 及 自己 的 硬件 
设备 和 软件 的 能 力 : 

除 上 述 当 前 应 用 最 广 的 方法 外 ,还 有 大 量 的 建立 和 搜索 进化 树 的 其 他 方法 。 这 些 方法 
包括 : 克 agner 距 离 方法 和 亲近 方法 (距离 转化 方法 );Lake 的 不 变 式 方法 ( 一 个 基于 特征 符 
的 方法 , 它 选 择 的 拓扑 结构 包含 一 个 意义 重大 的 正 数 以 支持 频 换 ) ;Hadamard 结合 方法 (一 
个 精细 的 代数 方 阵 方法 GERA UR n UL E SU BUR EAE HET TIE EO ;裂解 方法 (这 个 方法 
БЕЛЕЕ nj ik SHE УЕ PB BS ES AR P9 FAR КЫ); UU r 22 GE RE Quartet puzzling) 
方法 (可 以 为 晤 大 似 然 性 建树 方法 所 应 用 ,这 个 算法 相对 而 言 是 个 较 快 的 进化 树 搜索 算 
法 )。 
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8.3.5 确定 树 祖 

虐 述 的 建 鱼 方 法 所 产生 的 都 是 无 根 树 (进化 树 滩 有 进化 的 楼 性 )。 为 了 评估 进化 假说 ， 
通常 必须 可 确 定 进化 树 的 树 根 。 确 定 进化 鱼 的 树 根 并 不 是 一 个 简单 的 问题 。- -种 确定 树 根 
的 好 方法 就 是 分 析 时 器 人 一 个 复制 的 基 央 。 如 果 来 自 绝 大 多 数 物种 或 者 所 有 物 神 的 所 有 的 
平行 基 内 在 分 析 时 都 被 包含 进去 ,那么 从 逻辑 上 我 们 就 可 以 把 进化 树 的 树 根 冠 位 于 平行 基 
尖 进 化 树 的 交会 处 ,当然 楼 假定 让 所 有 进化 树 中 都 没有 长 树枝 问题 。 


8.3.6 评估 进化 树 

现在 已 经 有 一 些 程序 可 以 用 来 评估 数据 中 的 进化 遗传 信 导 和 进化 树 的 健 间 性。 对 于 前 
者 ,最 流行 的 方法 是 用 数据 信和 总 和 随机 数据 作对 比 实验 { 偏 斜 和 排列 实验 ) ;对 于 后 者 ,可 以 
对 观察 到 的 数据 重新 弛 样 ,进行 进化 树 的 支持 实验 ( 非 参 数 自 引导 和 对 折 方 法 )。 似 然 比 例 
实验 可 以 对 取代 模型 和 进化 树 都 进行 评估 ， 


8.4 MCMC 方法 在 进化 遗 拷 分 析 中 的 应 用 


Hn AGE RESET IE (Markov Chain Monte Carlo, MCMC) 是 一 种 重要 的 模拟 
计算 方法 ,MCMC 的 研究 对 建立 可 实际 应 用 的 统计 蓝 型 开辟 了 广 冰 的 前 景 。20 世纪 90 年 
代 以 来 ,很 多 应 用 问题 都 存在 着 分 析 对 象 比 较 复 杂 与 正确 识别 模型 结构 的 困难 。 现 在 恨 据 
MCMC 埋 论 ,通过 使 用 专用 统计 软件 进行 MCMC 模拟 ,可 解决 许多 复杂 性 问题 。 此 外 ,得 益 
T MCMC 理论 的 运用 ,使 得 贝 叶 斯 (Bayes) 统计 得 到 了 再度 复兴 ,以 往 被 认为 不 可 能 实施 
计算 的 统计 方法 变 得 很 轻而易举 了 。 以 前 ,MCME 主要 在 物理 学 中 应 用 ,而 现在 大 量 生 物 依 
息 学 问题 的 解决 都 利 MCMC 有 关 。 


8.4.1 АЯТЕ 

运用 贝 叶 斯 定理 重建 遗传 树 时 ， 要 求 我 们 首先 定义 一 个 参数 ,此 参数 包含 所 有 可 能 的 
组 合 状态 , 申 = ЇТ, ‚Ө .7 代表 第 庆 个 可 能 的 树 的 构 灸 ,所 代 表 与 这 个 构象 相关 联 的 树枝 
的 长 度 , 而 8 则 是 一 组 可 用 于 我 们 评估 模型 的 参数 。 根 据 由 叶 斯 定 囊 , 我 们 可 以 计算 当 给 
定 序列 数据 蒜 时 , 组 合 状态 后 续 的 可 能 性 , 即 


pel X) =- Werle) (公式 8 -5) 


У, [dv doP(X І ф)рСф) 


其 中 ,NN 代表 当 给 定 s 个 种 属 的 数据 时 , 可 能 的 树 形 个 数 ; Р(Х!) 是 这 些 数据 的 可 能 性 :P 
(中 】 是 和 状态 8 相关 的 先 验 的 可 能 性 。 
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8.4.2 MCMC 的 基本 概念 

对 一 个 实际 规模 的 问题 , 按 公 式 8 -5 计算 其 分 村 是 不 可 能 的 ,因而 MCMC 便 得 以 应 
Н. 一 个 标准 的 广义 快速 MCMC 方法 是 通过 重复 性 两 步 法 , 在 我 们 的 状态 空间 如 了 上 构建 
一 个 切 尔 可 去 链 。 首 先 , 从 实际 的 状态 由 ,推导 出 一 个 新 的 状态 $^. 然后 依据 这 两 个 状态 
中 ,和 中 ' 及 其 推论 的 后 续 发 生 的 可 能 概率 , 这 个 推导 的 状态 可 以 被 接受 或 拒绝 。 在 非常 微弱 
的 情况 下 ,这 条 链 可 以 达到 一 个 均衡 的 状态 。 通 过 抛弃 这 条 链 的 最 初 部 分 ,可 以 依据 后 续 的 
可 能 密度 p( 1X) ,推导 出 其 状态 。 现 在 ,已 有 一 个 基于 MCMC 的 原理 , H PHASE 的 程序 ， 
可 以 从 后 续 的 可 能 密度 产生 大 量 的 数据 , 然后 从 这 些 数据 计算 出 任何 感 兴趣 的 同一 进化 中 
传 特性 的 后 续 可 能 性 。 比 好 对 于 一 个 特定 的 树 的 结构 的 后 续 可 能 性 可 以 很 方便 地 以 它 在 
PHASE 产生 的 MCMC 的 数据 中 出 现 的 频率 来 表示 。 这样 , 我 们 也 可 以 使 后 续 可 能 的 密度 
曲线 与 y ^r fp BITES НИ Gs 


8.4.3 MCMC 的 建树 方法 

树 的 结构 每 隔 10 个 循环 , 就 依据 最 近 的 邻居 交换 ( NN1) 的 方法 (图 8 -2)” 或 次 级 树 
的 修剪 (SPR) 方 法 (图 8 -3) 进 行 重建 。 每 个 循环 , 随机 挑 取 的 树枝 长 度 被 从 正 态 分 布 的 
中 心得 到 的 数值 $ 修改 。 当 树枝 的 长 度 变 为 负 值 时 , 特殊 的 规则 将 被 应 用 ,以 使 树 的 结构 
得 以 改变 中 。 如 果树 枝 是 内 部 树枝 ,最近 的 两 个 树枝 之 一 将 被 交换 ,以 使 它们 具有 相同 的 
格 能 种 。 这 就 是 上 述 的 最 近邻 居 交 换 (NNI) 法 。 新 的 内 部 树 核 的 长 度 被 设 定 为 
у = іх +61。 假 如 树枝 是 末端 树枝 , NNI 方 法 就 不 能 应 用 , 而 代 之 应 用 其 镜像 。 对 SPR 和 
NNI 的 方法 而 育 , 其 接受 的 比率 通常 都 较 低 。 不 过 经 树枝 长 度 修改 引导 的 “本 地 "的 NNI 方 
法 , 有 相对 较 好 的 接受 度 。 
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8-2 ЖЕЗ ММ) 的 方法 
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图 8 -3 eB MESS (SPR) 方法 


8.4.4 MCMC 的 难点 

我 们 所 采集 到 的 生物 数据 是 有 限 的 ,但 是 真实 的 生物 进化 历程 却 是 未 知 的 ,因此 ,对 进 
化 树 的 人 为 估计 .计算 极 易 带 来 不 确定 性 。 这 种 不 确定 性 不 但 体现 在 酝 的 枝 长 ,而 且 主 要 体 
现在 树 的 拓扑 结构 上 。 我 们 可 以 怀疑 是 否 最 大 似 然 法 真 的 总 是 发 现 真实 的 最 大 似 然 功 能 。 
同样 ,应 用 MCMC 方法 时 ， 马尔 可 夫 链 也 会 无 法 计算 出 稳定 分 布 的 后 续 可 能 性 。 造成 这 种 
结果 的 其 中 -种 原因 就 是 由 于 似 然 性 曲线 的 局 部 最 大 化 无 法 访问 所 有 的 参数 区 间 的 高 概率 
区 域 。 不 过 ， 不 碾 熟 的 方法 本 身 和 { 或) 没有 运行 此 链 达到 足够 的 长 度 是 导致 数据 缺 随 的 主 
EET, ipii e 并 不 是 总 是 很 容易 地 辨别 出 是 何 种 原因 造成 这 种 缺陷 。 我 们 的 建 
议 是 运行 此 链 达到 足够 的 长 度 ， 监控 几 个 模型 参数 的 产生 情况 〔 因 为 只 监控 似 然 性 是 不 够 
BJ), 使 用 随机 的 树 的 起 始 位 点 重复 同一 实验 ， 以 检验 是 否 所 有 的 链 给 予 相似 的 结果 ( 比 
如 ,替代 模型 参数 , 一致 性 , RHEE), 
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8.5 疾病 基因 的 连锁 与 关联 分 析 所 -16] 


疾病 基因 的 克 降 是 目前 遗传 学 研究 的 热点 之 -… ,特别 是 有 关 多 基因 性 状 或 数量 性 状 的 
定位 与 克隆 。 对 这 种 疾病 基因 的 分 析 , 关键 的 3 个 步骤 是 收集 桩 本 资料 ( 特别 是 系谱 资 
料 ) ` 个 体 的 基因 型 分 析 以 及 数据 资料 处 理 。 其 中 所 涉及 的 统计 遗传 学 方法 分 为 连锁 分 析 
(linkage study) 种 关联 分 析 ( association study 两 太 类 ， 

连锁 分 析 是 建立 在 系谱 的 基础 上 ,主要 通过 计算 重组 率 ,来 反映 两 基因 位 点 ( 其 中 之 一 
为 疾病 基因 位 点 ) 之 问 的 近邻 关系 , 即 通过 检验 假设 和 统计 检验 ， 推断 两 位 点 是 否 存在 连 
锁 。 连 锁 分 析 的 常用 数理 统计 原理 有 两 种 , — ЕШ 叶 斯 分 析 ( Bayesian analysis) ,二 是 伏 然 
性 比值 法 (likelihood ratio test, LRT) ,后 者 常用 对 数 优势 记分 法 (LOD score) 表 示 , 简 称 Lods 


РЕОН £ di а н i 


WB. ЖЕНА Е SUI, uo] Hcr B) Z 检验。 

关联 分 析 - 般 是 基于 群体 的 Cpopulation — based ) 38 (Pi X: B 8f 2x ( case — control study) 的 
实验 设计 而 进行 ,分 析 某 种 基 由 型 或 单 体型 与 疾病 的 关联 性 ,这 是 遗传 流行 病 学 的 基本 方 
BR. WEE НАНЕ Е RR) 或 几率 比值 LOR) ,参见 10.4 节 。 实 际 应 用 中 ,对 于 基 
些 具 季 家族 课 集 现 象 的 病例 对 照 资 料 的 关联 分 析 , 常 用 非 参 娄 统计 检验 ,主要 包括 两 种 ， 
中 传递 水 平衡 分 析 (transmission disequilibrium test, TDT) 【统计 软件 常用 GENEHUNTER : 
http : Awww. fhere. org/labs/kruglyak/downloads/index. html) ;加 受累 同胞 对 分 析 Calfected sib 
- pair analysis, ASP) 【统计 软件 常用 ASPEX hp; // lahmed. stanford. edu/pub/aspex/ index. 
him). TDT 分 析 十 比较 某 些 特殊 等 位 基因 由 亲 代 向 子 代 的 传递 频率 的 差别 。 这 种 方法 的 
主要 受 限制 因素 是 必须 获得 患者 父母 的 DNA 样品 ,特别 是 那些 发 病 年 龄 较 晚 的 疾病 如 早老 
PERAE ШИШ .I 型 糖尿 病 等 ,往生 难以 获得 患者 双亲 的 DNA。 这 通常 庄 要 采用 收 正 的 
TDT 方法 进行 分 析 。 田 外 ,常用 的 补救 方法 是 仅 分 析 患 者 及 其 同 息 的 等 位 基因 频率 , 即 ASP 
分 析 。 特 别 在 研究 高 发 病 率 的 性 状 时 ，ASP 方法 的 检验 效能 要 居于 了 DT 法。 

数量 性 状 是 多 基 办 遗传 的 基础 。 在 2.3.2 节 中 已 介绍 过 有 关 多 基因 遗传 方式 及 芯 特 
点 。 有 关 数 量 性 状 位 点 ( quantity trait loci, QTL) 的 定位 是 呆 前 人 类 遗传 学 的 研究 热点 之 一 。 
鉴定 多 基因 病 的 相关 基因 或 易 感 基因 的 常用 方法 有 两 种 ;一 是 候选 基因 研究 ,二 是 在 全 基因 
组 扫 撒 基础 二 的 定位 克隆 , 参 外 3.5 Tí. BT. : 坚 多 基因 病 的 易 感 基因 与 邻近 位 点 存在 共 
分 离 现象 {cosegregation) BILE TEMA (linkage disequilibrium, LD) ,通过 连锁 分 析 可 
计算 出 邻近 位 点 与 易 感 基因 间 的 遗传 距离 ,反映 其 连锁 关系 ,用 十 基因 的 定位 利克 隆 ;也 可 
通过 基于 LD 基础 上 的 单 倍 型 分 析 该 邻近 位 点 与 疾病 的 关联 注 , 来 确定 易 感 基 内 位 点 , 浆 称 
连锁 不 平衡 作 和 分 析 ( 详 见 9.2.2 37), 

因此 ,在 进行 与 疾病 基 央 定位 (特别 是 多 基因 病 艺 感 基因 ) 分析 之 前 ,必须 对 人 研究 资料 
进行 分 类 ,再 决定 所 采用 的 统计 分 析 方 法 。 分 类 方法 通常 其 以 下 几 戊 。 

01) 样品 类 型 ”根据 样 上 来 自家 族 成 员 还 起 无 尝 绿 关系 人 员 区 分 为 家 族 分 析 和 各 群体 分 
析 两 大 类 .家 系 分 析 中 依据 亲 代 数目 和 同胞 数 日 进行 纲 分 ,采用 的 实验 设计 和 统计 方法 有 
所 差别 。 

2) 标记 物种 类 ”传统 的 关联 分 析 方 法 是 分 析 共 有- -对 等 位 基因 的 单一 分 子 标记 ,如 
果 属 村 多 等 位 基因 或 多 个 分 子 标记 物 , 或 利用 单 体 型 分 析 , 则 采用 的 统计 方法 也 有 区 别 。 

(3) 其 他 因素 鉴于 是 否 存 在 基因 问 相 互 作 用 或 基 央 与 环境 相 丘 作用 .统计 方法 的 分 
析 效 能 大 小 .是 否 具 有 可 靠 的 分 析 软 件 等 综合 考虑 实验 设计 和 统计 检验 (常用 统计 软件 旧 
RA DL http : // linkage. rockefeller. edu/soft/list. html) 。 有 关 复 涩 性 状 易 感 基因 研究 的 实验 设 
计 和 统计 方法 的 选用 参见 图 8 -4。 
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团 8-4 复杂 性 状 易 感 基因 的 定位 分 类 方法 


8.5.1 家 族 聚 集 性 分 析 

通过 临床 观察 ,可 得 知 某 种 疾病 是 否 具 有 家 族 聚 集 性 (familial aggregation) ,但 要 证 实 这 
种 家 族 聚 集 性 ,必须 依靠 统计 学 方法 。 通 常 采 用 的 方法 有 :由 比较 患者 亲属 与 普通 人 群 的 患 
. 病 率 (preyalence rate) R RAF (incidence rate) 的 差别 ;加 比较 有 家 族 史 患者 亲属 与 无 家 族 
中 患者 亲属 的 患 病 率 或 发 病 率 的 差别 ;名 比较 不 同 亲 绿 级 别 的 患者 亲属 的 患 病 率 或 发 病 率 
的 差别 ;人 二 比较 某 种 数量 性 状 在 患 着 同胞 对 之 间 的 相关 性 和 在 非 同 胞 对 之 间 的 相关 性 的 
差别 。 

Ж Ж Ж} ЖЕ ЖЕШ НЕЛЕ ,通常 表明 患者 家 族 中 存在 某 种 致 病 基因 ,或 者 患者 家 族 暴 露 于 
同一 优 险 因素 的 环境 中 。 权 回答 家 族 育 集 性 是 硅 为 遗传 性 ,最 常用 的 分 析 方 法 为 双生 子 分 
析 法 {twin study) ,双生 子 可 区 分 为 单 台 子 双生 于 (monozygole，MZ) 和 站 合子 双生 子 (dizy- 
вое, DZ) 。 双 生子 分 析 法 中 ,主要 比较 MZ 和 DZ 中 疾病 一 致 性 和 不 -- : 致 性 的 配对 数目 , 计 
算 各 月 的 频数 分 布 ,如 果 某 性 状 在 MZ 中 出 现 航 比例 高 于 DZ 的 比例 ,并 具有 统计 学 意义 ,于 
ЖИК УИНН, 

要 网管 过 传 与 环境 的 相互 作用 ,需要 利用 生态 遗传 学 (ecogenetics ) 的 分 析 方 法 。 通 过 
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研究 分 拓 ( 不 同 环境 ) 和 有 同居 (相同 环境 )MZ 中 的 人 性状 分 布 规律 ,可 以 揭示 遗传 或 环境 肉 素 
的 关系 。 另 外 ,收养 研究 (adoption study) 也 是 研究 性 状 与 遗传 或 环境 因素 是 否 相 关 的 常用 
方法 。 此 方法 中 ,是 比较 具有 相同 后 天 环境 下 的 收养 者 非 生 物 学 亲属 中 某 性 状 的 重 现 率 ,或 
者 比较 不 同 后 天 环境 下 收养 者 生物 学 亲属 中 该 性 状 的 重 现 率 。 由 于 社会 因素 的 影响 ,后 一 
种 比较 方法 通常 难以 实现 ,实验 设计 中 主要 是 利用 前 一 种 比较 方法 。 如 果 收 养 者 (本 身 为 
患者 ) 非 持 物 学 亲属 中 某 种 疾病 的 患 病 率 与 非 收 养 的 患者 亲属 中 的 患 病 率 相同 ,说 明 遗 传 
因素 起 一 定 作 用 ;如 果 丙 者 差别 有 统计 学 意义 ,说 明 环 境 因素 起 -- 定 作用 。 收 养 研 究 设计 的 
一 种 改进 方法 是 利用 半 同 胞 对 设计 ,其 分 析 原 理 基 本 相同 ,这 在 离婚 率 高 的 社会 中 欧 其 
适用 。 

值得 注意 的 是 ,家 族 聚 集 性 分 析 中 须 特 别 注意 排除 实验 设计 中 沁 茶 因素 的 影响 ,如 年 
龄 .性别 ,种族 等 。 

关于 复杂 性 状 或 数量 性 状 的 定位 ,是 日 前 遗传 学 研究 中 的 热点 。 单 基因 病 研 究 中 的 分 
离 分 析 方 法 大 大 促进 了 备 德 尔 遗 传 病 基 因 的 定位 克隆 。 这 种 分 析 方 法 对 于 某 些 符 合生 德尔 
遗传 的 肿瘤 综合 征 ( 多 为 常 染 色 体 晓 性 遗传 ) 也 适用 ,例如 家 族人 性 乳腺 瘤 中 BRCAT 和 和 
BRCA2 基因 的 克隆 。 这 就 是 说 ,对 于 某 些 多 基因 病 , 通 过 家 族 聚 集 性 分 析 , 可 细 分 为 不 同 的 
亚 类 ,通过 类 似 单 基因 病 的 分 离 分 析 方 法 ,可 逐个 解析 不 同 基因 的 贡献 。 但 对 于 大 多 数 多 基 
因 病 而 言 ,要 找到 这 种 具有 明确 孟 德 尔 遗 传 特征 的 下 类 是 很 困难 的 。 这 种 多 基因 病 或 复 染 
性 状 的 分 析 主 要 依靠 下 文 将 要 详细 介绍 的 连锁 分 析 积 关联 分 析 方 法 。 这 两 种 方法 也 常 建立 
在 对 患者 家 庭 成 员 分 析 的 基础 上 。 


8.5.2 LOD 分 析 

连锁 分 析 主 要 通过 分 析 致 病 基因 或 性 状 基 央 与 已 知 标 记 基 因 是 和 理 存 在 连锁 关系 ,用 十 
待 分 析 基 六 的 染色 体 定 位 。 统 计 分 本 方法 包括 人 经典 连锁 分 析 和 非 参数 连锁 分 析 两 种 常用 方 
法 。 非 参数 连锁 分 析 方 法 通常 用 于 基因 的 遗传 模式 不 明确 的 情况 ( 即 林 知道 分 布 类 型 ) ,只 
逢 要 知道 双亲 和 子女 各 位 点 的 基因 型 ,无 须 葵 虚 基因 型 频率 。 这 在 下 文 TDT 和 АЗР 分 析 中 

经 典 连 锁 分 析 中 ,其 前 所 是 标记 基因 和 目的 基因 均 符 合 经 典 的 孟 德 尔 遗 传 规律 ， 其 分 
析 方 法 主要 为 系谱 分 析 和 最 大 似 然 法 (maximum likelihood) 。 系 谱 分 析 法 最 直观 ,是 临床 遗 
传 学 和 遗传 咨询 中 最 常用 的 方法 。 连 锁 分 析 根 据 位 点 数目 分 为 单位 点 、 驱 位 点 和 多 位 点 模 
型 。 其 中 以 双 位 点 模型 最 常用 ,特别 适合 于 疾病 基因 的 定位 ,其 最 大 似 然 法 概率 的 计算 公 
X: 


Пр, (8) 


Tr (公式 8 -6) 
Hp,(0.5) 


式 中 ,P, 表 示 连 锁 相 对 概率 ; 吕 表 示 第 :个 家 系 在 重组 率 为 或 0.5( 不 连锁 ) 时 的 概率 ia 为 
家 系数 ,II 表示 各 计算 概率 的 乘积 。P, 的 计算 根据 二 项 分 布 (binomial) 站 数 而 展开 。 公 式 8 


-6 中 书 的 计算 通常 是 根据 分 子 和 分 攻取 最 大 似 然 性 函数 ,再 得 到 其 比值 (likelihood ratio, 
LR) ,此 法 义 称 为 似 然 性 比 信 检 验 {LRT) ,或 称 С 检验 。 实 际 应 用 中 , 常 以 LR 的 常用 对 数 
Ig(TR) 来 表示 连锁 相对 概率 , 称 之 为 对 数 优 势 记 分 法 (LOD score) ,简称 Lods fi, Lods 值 的 
计算 常用 现行 软件 ,如 GENEHUNTER , LINKAGE {http://linkage. rockefeller. edu/soft ) 等 给 
出 。 当 Lods fH »1, 提示 有 连锁 关系 ; Lods 值 关 3 ,表示 肯定 连锁 ; Lods {Н = -2 ,否定 连锁 
头 系 ; 当 Lods 值 介 于 -2 和 +1 之 问 时 ,需要 增 大 样品 量 ,直到 Lods 值 大 于 1 或 小 于 -2。 

连锁 分 析 的 单位 点 模 击 主要 是 重组 率 Ө 的 计算 ,8 是 用 来 表示 重组 型 (发生 奖 换 ) 配 子 
占 总 配子 的 百分比 。 通 常 将 重组 率 为 1 双 [ 即 ( =0.01)] 时 的 两 个 位 点 之 间 的 距离 称 为 1 应 
РЕ ( centimorgan , cM ) ; H EHER 7j 5096 , BD REB Ay; 50 cM ,88=0.5 时 ,认为 不 连锁 。1 cM 的 
物理 距离 平均 约 为 1 Mbh。 重 组 数 日 (六 与 遗传 距离 4d) 的 相互 关系 根据 1919 年 Haldane Jy 
程 ( 又 称 位 置 函 数 ) , 即 卜 式 : 


d-[-in(1-25) ]/2 或 r = (1 ~-e 72 (公式 8 - 7) 


8.5.3 TIT 分 析 与 ASF 分 析 

TDT 分 析 是 1993 年 建立 的 一 种 基于 系谱 分 本 基础 上 的 关联 分 析 方 法 。 主 变 是 针对 病 
例 对 照 资料 的 关联 分 析 ( M F h) 中 国 群体 结构 厅 同 引 趣 的 误差 进行 纠正 的 一 种 统计 方法 。 
采用 的 资料 中 ,必须 共有 双亲 的 样品 :子女 由 至 少 有 一 名 患者 。 通 过 对 某 一 对 等 位 基因 的 待 
递 规 律 进行 分 析 , 分 别 对 这 代 中 传递 到 患 病 子 交 的 茶 种 等 位 基因 (A) 和 不 传递 到 患 病 子 玄 
的 某 种 等 位 基因 (N) 进 行 计 数 , 然 后 利用 下 式 计算 Y 值 ,自由 度 为 1, 得 到 统计 概率 。 此 法 
M МеМетат Ж RI. 


Хит = AN 一 (会 式 8-8) 


如 图 8 -5, 访 家系 中 子女 患 病 , 冯 亲 表 型 正常 , 同 
为 杂 人 台子 。 基 因 型 AA 为 病例 组 ,NN 为 对 照 组 , Врат 
要 比较 和 传递 但 N 不 和 传递 组 与 N 传递 但 A 不 传递 组 АА 
їй x (8,485558 8,588 —5 3: & TDT 的 x 值 等 于 
(2-0)'7(240) 22, ШЖ ТЕЁ GA P HRS (CREE 
缺失 现象 ,需要 用 修正 ТОТ 法 进行 检验 。 个 传递 的 学位 基因 

M XL CRESCE , 则 须 采 用 ASP 分 析 , 比 较 
受累 同胞 与 非 受 累 同 胞 之 则 等 位 基因 的 分 布 频率 。 这 
是 非 参 数 连 锁 分 机 中 常用 的 分 析 方 法 。ASP 分 析 中 涉 
RATER E, BD Ifl 2k — St PE ( identity by descent, 
IBD) 和 状态 .一 致 性 (identity by state, IRS), IBD 是 指 
两 个 疝 胞 间 相 同 的 等 位 基因 来 源 于 同一 亲 代 ;IBS 是 指 


图 8 -5 ТРТ ЖТ 


和 同胞 疗 相 辐 的 两 个 等 位 基因 分 别 来 自 父 方 和 蔷 方 。 有 关 IBD A TBS 的 示意 图 见 图 -6。 
家 系 1 中 IBD=1 但 IBS=0; 家 系 2 中 I8BD =0 但 IBS=1。 通 过 分 析 子 女 中 IBD 91185 的 概 
率 , 可 得 知 基因 与 疾病 的 相关 性 。 在 受累 同 牙 对 设计 中 ,每 个 位 点 等 位 基因 的 IBD 分 为 0， 
1,2 三 种 情况 ,在 不 存在 连锁 的 情况 下 ,它们 所 占 的 比例 分 别 为 0.25, 0.5, 0.25, WEET 
位 点 与 疾病 相关 , 则 该 位 点 的 IBD 值 更 高 。 通 过 比较 IBD 等 于 0,1,2 时 的 观察 值 (0) 和 期 
HEE KEN, TE y (8, B HERE df = IBD 2E EU - 该 基 央 位 点 的 等 位 基因 数 。 


ARI 家 系 2 
AB CD 
АС AD 
IBD-1 IBD=0 
185-0 IBS=1 


图 8-6 IBS #180 示意 图 


хз» = ECE - 0)2⁄E (公式 8 -9) 


实际 应 用 中 ,常用 MAPMAKER/SIBS 软件 进行 分 析 , 也 可 用 GENEHUNTER 软件 计算 。 
值得 一 提 的 是 ,上 述 有 关 LOD 分 析 .TDT A ASP 分 析 中 都 涉及 GENEHUNTER 软件 的 应 用 ， 
该 软件 还 可 用 于 系谱 分 析 OTL 定位 分 析 , 单 体型 估计 等 ,是 目前 连锁 分 析 中 最 常用 的 软件 
之 一 。 该 软件 由 MIT 的 Whitehead 基因 组 中 心 的 Erie Lander 小 组 由 1996 年 设计 出 来 ,目前 
已 更 新 到 3.0 版 本 ,可 通过 地 方法 从 该 基因 组 中 心 的 软件 站 下 载 ,日 前 仅 有 供 Unix 操作 系 
统 的 版 本 , 尚 不 能 在 Windows 支持 下 直接 运行 ,也 没有 提供 直接 的 服务 器 。 用 户 必 须 主 该 中 
心 注册 登记 。 其 操作 手册 可 在 Rockefeller 天 学 的 网 站 中 得 到 (http: // linkage. rockefeller, 
edu/soft/ gh2 ) 。 


8.5.4 病例 对 照 资 料 分 析 

基于 群体 的 关联 分 析 时 ,最 常 采 用 病例 对 照 研 究 资 料 。 这 种 关联 性 包括 :中 比较 病例 与 
对 照 癌 , 易 感 候选 基因 或 分 了 标记 的 等 位 基因 频率 的 相对 危险 度 或 几率 比值 ;@@ 对 于 数量 性 
状 , 如 身高 、 蚀 压 等 ,比较 病例 与 对 照 间 该 数量 性 状 与 患 病 率 或 发 病 率 相关 性 的 差别 。 

上 述 分 析 所 涉及 的 统计 方法 参见 10.4 和 10.5 节 。 在 判别 关联 分 析 统 计 结 果 时 ,需要 
对 样品 资料 进行 产 格 审核 ,无 偏重 现象 发 生 ,同时 所 发 现 的 关联 基因 或 多 态 位 点 在 功能 上 或 
染色 体 定位 上 其 有 生物 学 意义 。 如 果 分 析 结 果 具 有 统计 学 意义 ,在 排除 混杂 因素 (confoun- 
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der) 和 相互 作用 看 ,通常 认为 该 等 位 基因 与 疾病 的 发 生存 在 关联 性 ,但 也 可 能 由 于 连锁 不 平 
衡 现象 的 存在 ,该 等 位 基 办 并 非 引 起 发 病 的 自 接 因素 。 有 关 闫 联 分 析 方 法 的 实验 设计 还 将 
在 9.2.3 节 中 讨论 。 


8.5.5 QTL {у ^ 7?) 

前 面 所 述 的 连锁 分 析 和 关联 分 析 中 , 主要 讨论 的 疾病 属于 一 值 性 状 (dichotomous trait) , 
即 有 或 无 的 两 种 相对 情况 。 这 通常 是 针对 单 基因 病 性 状 而 言 。 多 基因 性 状 或 数量 性 状 的 分 
Ж, P RHENE ( backeross ) 2k Zi 25 ( intercross ) 的 实验 设计 方法 。 然 后 对 数量 选择 位 点 
( quantitative trait locus, QTL) 进行 定位 ,简称 ОТТ, 定位 ,， 所 谓 QTL, 是 利用 统计 方法 对 复杂 
性 状 进行 分 析 的 结果 。QTL 通常 累及 多 个 基因 ,也 受 环 境 因 素 影响 。 品 前 有 关 QTL 定位 方 
法 中 ,常用 的 有 单 分 子 标记 定位 {single ~ marker mapping) ,多 分 子 标 记 定 位 (multiple – 
marker mapping) .区 间 定 位 (interval mapping, IM) .复合 区 闻 定 位 (composite interval map- 
ping, СІМ) 利多 区 间 定 位 (multiple interval mapping, MIM) 等 。 这 些 方法 的 基本 原理 与 前 面 
所 述 的 连锁 分 析 相 同 ,但 需要 进行 计量 资料 的 统计 分 析 或 多 元 相关 与 回归 分 析 。 

单 分 子 标记 定位 分 析 ,又 称 单 分 子 标记 同 归 分 析 , 可 采用 正 态 分布 的 2 检验 .上 检验 或 下 
检验 。 这 种 方法 相对 简单 , 按 该 分 子 标记 的 木 同 基因 型 分 组 处 理 ,统计 分 析 不 册 组 间 表 现 型 
的 差异 。 对 于 不 同 的 分 子 标记 , 须 逐 个 计算 ,反映 差别 是 否 上 共有 统计 学 意义 ,但 不 能 反映 连 
锁 关系 的 大 小 , 即 无 法 在 全 基因 组 水 平 进行 扫描 定位 。 如 果 考 虑 多 个 不 同 分 子 标记 (或 基 
因 ) 可 能 都 影响 某 一 性 状 , 则 须 建立 多 元 回归 模型 进行 分 析 , 同 时 尽量 考虑 混杂 因素 和 相互 
作用 的 影响 。 相 关 统 计 方法 参见 第 10 章 。 

区 间 定 位 方法 是 由 Lander 和 Botstein 于 1989 年 建立 的 方法 ,其 目的 是 将 QTL 定位 在 两 
W TERE (flanking marker) 之 间 , 同 时 增加 检验 效率 。 所 用 统计 方法 是 似 然 性 比值 法 
(LRT) ,并 通常 计算 Lods f, IM 是 目前 QTL 定位 中 最 常用 的 方法 ,可 以 有 反映 QTL 与 分 子 标 
记 间 的 相对 距离 和 连锁 强度 。 复 合 区 间 定 位 基 将 IM 与 分 子 标记 定位 相 结 合 的 方法 ,其 目 
的 是 考虑 区 间 外 其 他 分 子 标记 对 QTL 的 贡献 。 统 计 处 理 上 是 将 LRT 与 多 元 何 归 结合 。 
СІМ 可 有 效 减 低 IM 分 析 中 区 间 内 出 现 的 双 峰 或 多 蜂 现 象 ( V Bc" ВЫЕ") ,但 区 间 外 震 存在 
许多 分 于 标记 的 影响 , 则 减低 检验 模型 中 区 间 OTL 的 检验 效率 。 

ММ 是 针对 多 个 QTL 的 分 析 方 法 ,与 СІМ 不 同 的 基 ,MIM 同时 进行 多 个 区 间 的 多 元 
QTL 分析, 先 使 用 MLE - EM 进行 参数 的 佑 计 , 再 进行 LRT 分 析 。MIM 可 有 效 区 分 连锁 
QTIL 和 相互 作用 QTL。 这 种 方法 计算 过 程 较 烦 琐 。 

QTL 定位 中 闽 值 ( threshold value) 的 确定 很 重要 ,这 与 所 选用 的 统计 方法 和 样本 量 有 
关 。 通 常 ,用 不 同方 法 检验 时 可 得 到 相同 的 统计 结论。 目前 QTL 定位 中 常用 的 统计 软件 有 
SAS, MINITAB, R 等 软件 , 另外 ,也 常 使 用 一 些 中 传统 计 学 软件 如 MapManager QTX， 
MAPMAKER/QTL,MAPMAKER/EXP, QTL CARTOGRAPHER 等 , 须 结 合 样本 资料 类 型 和 
QTL 定位 方法 进行 选用 。 
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8.6.1 Hardy – Weinberg 平衡 

在 一 个 理想 群体 中 { 群体 足够 大 .随机 婚配 Е BLBR ETE .无 新 突变 发 牛 W В ШИЖ К 
规模 迁移 等 ) , 将 等 位 基因 分 为 野生 型 N( 正 常 ) 或 突变 型 A 致 病 } 两 种 类 型 ,二 种 基因 型 
NN ,NA ,A 在 群体 中 的 分 布 保持 平衡 。 英 国 数学 家 Hardy 和 德国 遗传 学 家 Weinberg 得 出 
了 关于 各 基因 频率 和 基因 型 频率 的 分 布 规律 。 等 位 基因 N( 显 性 基因 ) 的 频率 记 为 ,等 位 
基因 A( 隐 性 基因 ) 的 频率 记 为 g, 则 基因 型 NN МА, AA Biss A gp p^ .2pg,4^ . MA: 


р+ф=1,‚,(р+ф) = p +2p +g =1 (公式 8 — 10) 


这 就 是 著名 的 Hardy - Weinberg 公式 ,又 称 过 传 平衡 定律 ,简称 下- 更 定 律 。 换 名 话 
说 ,在 达到 Hardy - Weinberg 平衡 的 税 体 中 ,等 位 基因 频率 和 基因 型 频率 不 再 随 世 代 发 生 改 
ZB. Hardy - Weinberg 平衡 也 适用 于 多 个 等 位 基因 , 即 复 等 们 基因。 如果 一 个 基因 坐位 上 有 
3 个 等 位 基因 ,其 平衡 公式 为 :Cp +g+7) = р tg ^r *2pg *2pr*2gr-l, 一 般 地 ,如 果 
群体 中 某 基 因 举 位 上 有 复 等 位 基因 4 ,4,,… ,4, ,其 对 应 的 基因 频率 为 p,, py,…,p;,(i=]， 
2 … m), f( 4,4) Жа EBENE (i <j, j 22,3, m) ,这 样 ,等 位 基因 4. 的 频率 为 : 


pi = КАА) + Q2) x S (AA) (19) (йҗ#-1!) 


基 内 频率 与 基因 型 频率 的 关系 为 ， 


Мз 


1 


(p) = 20р) = Zp? +2 х (рр) =1 (公式 8-12) 


公式 8 -12 中 , E р! 称 为 基因 纯 合 度 ,2 x > (pip,) 称 为 基因 杂 合 度 , 两 者 之 和 等 于 1。 

Hardy — Weinberg 平衡 公式 常用 于 基因 频率 估计 及 杂 合 度 的 计算 。 在 遗传 流行 病 学 中 ,常用 

好 检验 公式 判断 该 群体 是 否 达 到 Hardy - Weinberg 平衡 , 即 H — W HA EWI (goodness - of 
-fit test)。 其 计算 公式 为 ; 


Mr = X(E-0)'7E (公式 8 -13) 
式 中 ,E 代表 基因 型 的 期 望 信 ;0 代表 相应 的 观察 值 。 白 由 虚 df = 基因 型 类 型 数 -该 基因 位 


点 的 等 位 基因 数 。 
每 一 仿 体 都 是 二 倍 体 ,基因 型 分 为 纯 合 子 或 沫 合子 。 在 实际 应 用 过 程 中 ,Hardy - Wein- 
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berg 公式 中 的 严 表 示 吕 性 等 位 基因 纯 合 子 频率 ,2p9 ose F SE о 则 为 相应 的 隐 性 等 
位 基因 纯 合 子 频率 ,对 于 常 染色 体 隐 性 遗传 病 而 言 q 也 就 代表 疾病 在 群体 中 的 发 病 率 。 通 
过 查阅 某 疾 病 在 人 群 中 的 发 病 率 ,可 求 得 dB. 再 由 p=1 -q VID р, Bz JE ЈК Н 2pg , El S 
带 者 频率 。 例 如 已 知 某 一 群体 中 PKU 的 发 病 率 是 1⁄10 000, H РКО 是 常 染 色 体 隐 性 遗传 
疾病 。 因 此 人 -=1710 000.9 21/100, ВТ ,р=1 — q 299/100,2pg 22 x (1/100) x (99/ 
100) =0.019 8。 就 是 说 该 群体 中 PKU RATUR A) 的 频率 约 为 1730。 

一 般 地 ,人 类 遗传 病 的 发 病 率 都 很 低 , 故 g 的 数值 非常 小 ,p 约 等 于 1， 办 此 ,在 运用 
Hardy - Weinberg 公式 进行 计算 时 ,可 以 用 29 来 计算 遗传 病 的 基因 携带 者 频率 。 如 上 面 例 
FP 2q =0.02 ,与 原来 的 2pg =0.0198 十 分 接近 。 

Xj X 连锁 壮 传 病 而 言 , 勇 性 只 有 -条 XX 染色 体 ,因此 其 基因 型 频率 等 于 基因 频率 , 
即 通过 调查 男性 发 病 率 ,就 是 致 病 基因 频率 (gq) ,或 者 般 过 调查 女性 患者 ( 纯 人 台子) 的 频率 
(q) ,其 平方 根 就 是 致 病 基 因 频 率 {4) 。 例 如 红 绿 色 育 足 一 种 X 连锁 隐 性 遗传 病 , 在 某 群 体 
中 男性 发 病 率 为 10% 。 则 4 =0.1,p=1-4=0.9, 女性 患者 频率 为 ff =0.01 =1% 。 女 性 
杂 合 子 (携带 者 ) 频 率 为 2pg =2 x0.9x 0.1=0.18 =18% 。 一 般 地 ,群体 中 某 一 X 连锁 隐 
性 基因 频率 越 小 ,男女 发 病 率 差 异 损 大 。 在 计算 子女 基 央 频率 或 基 内 型 频率 时 ,男性 和 女性 
应 分 别 计算 。 

Hardy - Weinberg 公式 不 适 于 党 染色体 总 性 遗传 病 ,这 是 因为 杂 合 子 都 是 患者 恒山 患者 
的 大 多 数 , 而 纯 合 子 患 者 非常 罕见 ,其 至 可 以 忽略 不 计 。 因 此 ,所 有 的 非 患 病 者 都 古 正常 纯 
合子 ,而 几乎 所 有 的 患者 都 是 杂 合 子 。 

通常 对 于 一 个 群体 而 言 ,突变 和 选 反作用 对 遗传 平衡 的 影响 较 小 ,在 满足 随机 婚 屿 的 条 
件 下 ,基本 接近 理想 群体 。 移 居 可 能 对 某 些 国家 的 局 部 地 区 显得 重 辈 ,但 通常 不 会 带 来 明显 
影响 。 如 果 大 选择 配偶 的 过 程 中 ,发 生 近 亲 结 婚 ,或 出 于 有 相同 的 地 理 因 素 ,生理 特点 (如 
智力 . 身 沿 .皮肤 颜色 等 ) 以 及 特殊 种 族 背 景 等 原因 而 选择 配偶 , 芷 这 种 情况 下 ,Hardy - 
Weinberg 公式 的 应 用 难 以 得 出 正确 的 等 位 基因 和 和 厅 合 子 频 率 , 特 别 是 在 近亲 结婚 的 情况 下 ， 
偏差 尤其 明显 。 


8.6.2 近 婚 系数 

近亲 (或 称 亲 缘 关 系 ) 是 指 3 ~4 代 岂 内 有 共同 的 祖先 。 如 果 他 们 之 间 通 婚 , 就 称 为 近 
亲 婚 配 。 近 亲 媚 配 的 夫妇 有 可 能 从 他 们 共同 的 祖先 那里 获得 同一 基因 ,并 将 之 传递 给 子女 。 
如 果 这 … 基 因 按 常 当 色 体 隐 性 遗传 方式 ,其 子女 就 可 能 因为 是 突变 纯 合 子 而 发 病 。 因 此 , 近 
亲 婚 配 降 低 了 群体 中 杂 合 子 频 率 ,而 增加 了 纯 合 子 频率 。 近 亲 婚 配 使 子女 中 得 到 这 样 一 对 
纯 会 子 或 相同 基因 的 概率 , 称 为 近 婚 系数 (inbreeding coefficient, F) 。 下 面 以 表 兄 妹 之 间 的 
近亲 婚配 为 例 来 说 时 近 婚 系数 的 一 般 计 算 方法 。 

图 8%8 -7 是 表 兄 妹 近亲 销 婚 的 系谱 。$5 的 近 婚 系数 计算 方法 如 下 。 假 设 $ 的 共同 祖先 
рт 和 P2 某 一 常 染 色 体 基因 坐位 的 等 位 基因 分 别 为 А1,А2 和 АЗ .Ad4 , 旭 该 位 点 共有 4 个 等 
位 基因 。S 的 近 婚 系数 就 是 指 表 兄 妹 CI 和 C2 婚配 后 ,S 得 到 ALAL, A2A2,A3A3, A4A4 的 
总 概率 。 从 图 中 可 以 看 出 ,Pt 将 基因 Al 经 Bl A C 传 给 5 需要 经 过 3 步 ,同样 Pl 将 基因 
AV 经 B2 和 C2 ДЕА S 也 需要 经 过 3 步 , 就 是 说 ,Pl 的 等 位 基因 Ат 需要 经 过 6 步 传 递 才能 


——————— GA + h r Er mg 
$, 


F | 使 $ 的 基因 型 成 为 &LA1。 每 步 传递 的 概率 都 是 L/2 ,因此 ,按照 乘法 原则 ,S 形成 纯 合子 
АТАТ 的 概率 为 {1/2)", 司 理 ,S 装 得 纯 合子 A2A2.A3A3.A4A4 的 概率 也 分 别 为 (1/2)", 按 
照 加 法 原则 ,S 的 近 婚 系数 为 4x (1/2) =1/16。 
A1A2 A 3654 
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图 8 -7 RRRA АЕ НИИ TEM 
依 此 类 椎 , 可 以 将 不 同等 级 的 近亲 婚配 中 的 近 婚 系数 计算 出 来 ( 表 8-3)。 


X8-3 近亲 婚配 类 型 及 其 近 婚 系数 


近亲 婚配 类 型 AERA YI 近 婚 系数 (下 ) 

ACRES 2 [B] 一 多 1/4 
呵 胞 兄妹 之 间 一 级 1/4 
[i] 52 yh BJ s НЕКЕ ОЗЕ En] He 222 [8] 二 级 1/8 
起 侄女 之 间 729 1/8 
5i WE e (si d ) m [a 8 1/8 

表 兄 妹 之 间 三 级 1/16 
"i BU Z [Н] - 1/16 
半 表 兄妹 之 间 四 级 1/32 
二 级 表 兄 妹 ( 从 表 兄 妹 ) 之 问 五 级 1/64. 


如 果 是 外 染色体 上 的 基因 ,由 于 女性 有 其 条 XX 染色体, 可 能 形成 纯 合子 ,而 男性 是 半 合 
子 ,不 存在 纯 合 的 问题 ,近亲 婚配 对 他 没有 影响 。 这 样 ,在 计算 X 连锁 基因 的 近 婚 系数 时 ， 
只 计算 女性 的 了 fA. MERTE, BHE X 连锁 基因 一 定 传 给 女儿 ,概率 为 1; 而 传 给 儿 
子 的 概率 为 0, 因 此 ,X 连锁 基因 的 近 婚 系数 计算 与 常 染色 体 基 因 有 所 不 同 。 特 别 注意 在 传 
递 通路 上 出 现 男 到 男 时 ,该 传递 路 径 不 予 计算 , 即 不 考虑 该 基因 纯 合 的 可 能 性 。 

若 为 姨 表 兄妹 , 仍 以 图 8 -7 谱系 为 例 , 作 些 适当 修改 。 以 AT 基因 代表 站 染色 体 , A2 
为 Pl 的 X 染色 体 上 等 位 基因 ,A3,A4 为 P2 的 XX 染色 体 上 两 个 不 同 的 等 位 基因 ,S 为 女性 。 


ае зт ДЕ sË ee er 


因此 ,3S 的 近 婚 系数 实际 上 是 指 S 获 得 A2A2 ,A3A3,A4A4 纯 人 台子 的 概率 。A2 必然 传 给 Bi 
^ii B2,25 ВІ 传 给 C1 的 概率 为 172 C1 若 获 得 А2 必然 传 给 S 3X FÉ, AZ 经 ВІСІ 8I S 的 传 
Ж НАТР 1 3, А2 经 B2, С2 传 到 $ 须 计算 2 Р, FE BLEU S 获得 42A2 的 概率 为 
《172) 。 等 位 基因 Аз 和 A4 的 传递 方式 有 所 不 同 ,经 B1 ,Cl 的 传递 计 为 2 步 , 经 B2 , C2 的 
传递 计 为 3 步 ,合计 5 步 , 即 S 获得 A3A3 或 A4A4 的 概率 都 是 (1/2) S 的 近 婚 系数 为 
(1/2)! +2 x (1/2)? z3/16, 

近亲 左 配 对 后 代 的 影响 ,主要 表现 在 增加 隐 性 遗传 病 的 发 病 率 ,而 且 先 天 畸形 ,早产 和 
流产 .幼儿 天 折 的 风险 也 增加 。 在 评价 近亲 婚配 对 群体 的 危害 时 ,还 常 须 在 阅 查 各 类 近亲 续 
婚 的 基础 上 ,计算 出 平均 近 婚 系数 (以 a 值 表示 }。a 值 越 大 ,对 群体 的 危害 越 大 。 一 - 般 以 a 
EX 0.01 (Bl 1% ) 为 高 值 。 通 常 在 发 过. 开放 的 补 会 中 ,a 值 较 低 ;在 封闭 .隔离 或 有 特殊 风 
俗 的 社会 中 a 值 较 高 。1980 ~ 1981 年 ,我 国 对 北京 地 区 的 汉族 人 口 调查 表明 ,其 近亲 婚配 
sJ 1.496 THIERR 0. 06796 . 


8.6.3 选择 作用 

绝 大 多 数 基因 都 受到 自然 选择 ( natural selection) 的 作用 ,具有 某 些 等 位 基因 或 基因 型 
的 个 体 可 能 在 子 伐 中风 保 角 下 来 ,而 另 一 些 则 少 保 留 下 来 : 即 表现 为 属 体 中 某 些 等 位 基 内 或 
基因 型 频率 增加 , 另 - . 些 等 位 基因 或 基因 型 频率 减少 。 但 是 若 选择 作用 发 生 在 育龄 期 之 后 ， 
不 会 对 后 代 产 生 影 响 。 通 常 将 某 种 基因 型 与 其 他 基因 型 相 比 较 时 能 在 活 并 传递 给 予 代 的 相 
对 能 力 , 称 为 适合 度 (fimess) ,用 了 表示 .~ 般 将 正常 纯 合子 个 体 的 适合 度 定 为 1, 其 他 基因 
型 的 适合 度 根 据 相 对 生育 率 (relative fertilily) 来 表示 。 例 如 在 一 项 调查 中 ,软骨 发 育 人 不 全 
(人 怕 颂 症 的 常见 类 型 ,由 FGFR3 基因 突变 所 引起 } 患 者 108 人 , 共 咎 育 后 代 27 人 ,而 患者 同 
胞 457 Ap, 354: 35 582 人 ,因此 软骨 发 育 不 全 的 相对 生育 率 为 :f= (27/108) + (582/457) 
=0.196。 适 台 度 为 0 时 ,表示 患者 通常 不 能 婚 育 或 后 代 无 法 存活 。 适 合 度 还 与 环境 鸣 相 互 
ТЕШ: <, 

选择 系数 { selective coefficient) 是 用 来 表示 在 选择 作用 下 适合 度 降 低 的 程度 ,用 * 表示 ， 
即 表示 某 种 基 旬 型 在 群体 中 不 利于 生存 的 程度 ,与 适合 度 的 关系 为 :5 =1 -了 。 选 拌 作用 对 
等 位 基因 和 基因 型 频率 的 影响 因 遗 传 方式 不 同 而 有 差别 。 

对 于 常 染色 体 显 性 基因 ,假设 显 性 基因 А 的 频率 为 p, 隐 性 基因 a 的 频率 为 9, 选择 对 显 
性 基因 的 选择 系数 为 *, 则 每 一 代 虹 性 基因 A 频率 的 收 变 AP у. 


АР= ФС =Р)- (公式 8 -14) 
1-эр(2-р) 


通常 群体 中 显 人 性 有 害 基因 的 频率 很 低 , 经 过 选 拼 作 用 后 ,在 设 有 新 突变 产生 的 情况 下 ， 
这 种 显 性 有 害 基因 经 过 苦于 代 后 , 较 容易 从 群体 中 消失 。 若 突变 和 选择 达到 平衡 ,经 推算 可 
得 知 此 时 的 突变 率 约 为 群体 中 患者 发 病 率 的 Е, АЧАР р. 

对 于 常 染色 体 隐 性 基因 ,经 选择 后 基因 a 的 频率 改变 AQ H: 


MU 


ЗЕЕ S 


-— _ 
до = HEU (公式 8 -15) 


群体 中 a 值 通常 较 小 ,每 代 基因 a 频率 的 降低 约 为 sg (1 -9) ,因此 隐 性 致 病 基因 的 频 
率 降 低迷 率 征 往 较 缓 慢 ,在 没有 新 突变 产生 的 情况 下 ,最 终 仍 会 在 群体 中 消失 。 若 新 的 隐 性 
突变 的 产生 与 选择 达到 平衡 ,此 时 突变 率 约 等 于 sg Щз = 时, 即 为 致死 突变 ,突变 率 则 等 
于 患者 发 病 率 9 。 

对 于 XX 连锁 基因 , 因 其 性 状 通常 在 男性 中 表现 出 来 ,273 的 X 连锁 基因 存在 于 杂 合 子女 
性 中 , 表 型 赴 常 ,不 受 选择 的 作用 。 对 于 X. 连锁 隐 性 基因 前 序 ,群体 中 致 病 基因 频率 钊 等 于 
发 病 率 9。 在 选择 作用 下 ,每 一 代 的 男性 中 将 有 颜 率 为 sq 的 致 病 基 因 被 淘汰 。 在 平衡 拜 体 
中 需要 相同 数 昌 的 突变 基因 来 平衡 ,此 时 的 新 发 千 突 变 率 为 : 


g = (1/3)sp (公式 8-16) 


一 般 而 言 ,许多 突变 是 有 害 的 ,但 大 多 数 是 中 人 性 的 , 仅 极 少 部 分 突变 为 有 害 的 。 目 然 选 
样 是 一 种 保存 有 利 突变 和 消灭 有 害 突变 的 过 程 。 值 得 注意 的 是 ,选择 是 一 个 复杂 的 生物 过 
程 ,选择 优势 常 与 基因 与 基因 .基因 与 环境 的 相互 作用 有 关 。 


8.64 基因 突变 

基因 突变 是 影响 群体 遗传 平衡 的 重要 原因 。 假 设 p 为 等 位 基因 A 突变 为 & 的 突变 率 ， 
P, 0 dH 4X, 的 基因 频率 ,P, 为 1 世代 基因 A 的 频率 ,在 不 考虑 其 他 改变 群体 基因 频率 的 因 
ЖЕ] ,基因 频率 的 变化 规律 为 : 


Р, = Xe (公式 8 一 17) 


根据 公式 8 -17 WJ 知 ,在 仅 考 虑 突变 的 影响 时 ,等 位 基因 A 的 频率 随 世 代数 的 增加 而 
旦 指数 规律 下 降 。 


8.6.5 遗传 漂 变 

对 于 较 小 群体 而 言 ,通常 难以 维持 遗传 平衡 ,会 出 现 基因 频率 的 随机 波动 现象 , 称 之 为 
MH ESAE (genetic йй) 。 这 在 相对 隔离 的 小 群体 中 常见 ,表现 为 某 些 基因 型 较 团 定 , 另 - 些 
基因 型 减少 甚至 丢失 的 现象 。 己 传 漂 变 是 群体 中 出 现 某 些 新 突变 固定 下 来 的 原因 ,由 此 产 
上皇 所 谓 的 祖先 效应 (founder effect) a 

假设 某 自然 阳 离 群 体 有 效 容量 为 六 ,通常 为 该 群体 个 体 数量 的 1/3。 某 基因 位 点 的 等 
位 菇 因 总 数 为 2N, 分 别 以 A 和 a 表示 ,其 基因 频率 分 别 为 p 利 4 或 (1 -P) ,经 过 一 代 后 , 基 
内 频率 改变 的 方 壮 可 表示 为 : 


т = pg/2N (25768 - 18) 


= 8 P Ea Jub E SË Ж ӨК ТЕ = ores I sisi sarasawa 


对 于 -个 有 效 容 重 为 六 ISTE ERARE, Pr E 09 3 R ЛЕ ЫЛЕ Ak ri E R E 
率 为 (1 -1/2N)。 者 新 突变 能 固定 下 来 , 则 形成 祖先 效应 。 群 体 越 小 ,新 突变 被 同 定 下 来 的 
概率 越 大 。 


8.7 ЖИЕНИ T. 


再 发 风险 率 是 指 曾 生育 过 一 个 或 几 个 遗传 病 患 儿 , 再 生育 该 病 患 儿 的 概率 。 现 在 这 一 
概念 已 扩展 到 凡 有 信息 可 导致 一 对 夫妇 生育 基 种 遗传 病 患 儿 ( 包括 第 一 胎 ) 的 概率 ,又 称 串 
病 风 险 或 跑 传 风险 。 遗传 咨询 中 ,-- 般 分 单 基因 病 再 发 风险 率 .多 基 央 病 再 发 风险 率 .染色 
体 病 再 发 风险 率 .线粒体 病 的 再 发 风险 率 等 。 


8.7.1 单 基因 病 再 发 风险 率 的 计算 

单 基因 病 的 基因 型 已 明确 者 ,于 发 风险 率 按 孟 德尔 定律 计算 {参见 2.3,1 Tr). — RES 
循 以 下 原则 : 

8.7.1.1 E ELE ЖН Н 

此 类 疾病 患者 - NDS AT e T E TS JL EN LHET , ex РАЈЕ НН Ж ТЫ 
难 存 活 到 结婚 年 龄 。 央 此 去 妇 --- 方 为 患者 时 , 子 代 每 眙 的 再 发 风险 率 为 172。 赤 妇 双 方 同 
为 患者 的 机 会 槛 少见 ,这 时 子 代 再 发 风险 率 为 374。 

8.7.1.2. ЖАЛЕ 

患者 А F OR EB AE ARTE ,再 发 风险 率 为 174; 杂 合子 出 现 概 率 为 1/2 , 完 
全 正常 的 概率 为 1/4 ;或 者 说 , 表 型 正常 的 子 代 概 率 为 273。 

8.7.1.3. X uE +h E IER HE 

5А, Sip SS TERMS ELT Т, REGLAS у Va RA 172 为 携带 者 ， 
472 为 完全 正常 , 即 所 后 女孩 表 型 全 部 正常 。 若 父亲 为 患者 ,与 正常 女性 婚 育 子 女 中 ,男孩 全 
部 正常 ,女孩 都 是 杂 合 子 。 母 亲 为 趾 者 ,与 正常 男性 婚 彰 子女 中 ,男孩 全 部 患 病 , 女 孩 全 部 为 
杂 合 子 。 

孟 德 尔 遗传 病 中 ,如 果 夫 妇 双 方 或 -- 方 的 基 内 型 不 明 , 再 发 风险 率 的 计算 必须 依 车 
Bayes 分 析 。 例 如 :一 位 女性 ,其 母亲 是 甲 型 血 友 病 携带 者 ,父亲 正常 ,她 本 人 天 型 赴 常 ,是 该 
病 扒 带 者 的 概率 为 1/2。 晶 前 她 已 生育 了 2 个 正常 男孩 ,表明 是 携带 者 的 可 能 性 减 小 ( 即 < 
1/2) ,确切 的 概率 是 多 少 ? 这 就 需要 利用 Thomas Bayes 提出 的 著名 的 道 概率 定理 来 计算 ， 
通常 称 为 Bayes 分 析 。 主 要 包 插 以 下 基本 概念 。 

(1) 桶 据 备 德尔 遗传 规律 所 香 到 的 初始 概率 , 称 为 前 概率 (Prior probability) , 记 作 P 
(A) ,不 发 后 A 的 概率 记 作 РСА), 

(2) 如 果 事 忻 B 的 概率 PCB) 与 早先 出 现 过 的 事件 А 有 藉 联 , 则 在 发 生 事件 A 的 条 件 
F ,再 发 生 事件 B 的 概率 称 为 条 件 概 率 (conditional probability) , 记 作 PCBI1A)。 计 算 公 式 
3. PCGBIA) = PCAB)/P( A) 。 


* 


(3) 上 式 中 P(AB) 表 示 事 件 ACRI В 同时 发 生 的 概率 , 称 为 联合 概率 (joint probability) , 
即 等 二 前 概率 与 条 件 概 率 的 乘积 。 

(4) 在 状 起 上 述 几 类 概率 基础 上 所 得 到 的 最 后 概率 , 称 为 后 概率 ( posterior probability) 。 
即 计算 在 B 发 生 的 条 件 下 ,A 发 生 的 概率 PLAIB) 和 A 不 发 生 的 概率 PC(AIB) 。 

后 概率 的 计算 是 通过 下 面 的 Bayes 公式 ; 


Р(Ау х P(BIA) ` 


Р(АТВ) 2508) x P(BIA) +P(A) x Р(ВГАУ (8-19) 


P(A) x P(BIA) 


(公式 8 -20) 


在 遗传 病 青 发 风险 的 计算 中 ,Bayes 分 析 的 目的 是 将 所 掌握 的 致 病 基 因 A 的 更 德尔 中 
传 方式 ,根据 家 系 中 有 关 成 员 同 的 关系 ,实验 检测 方法 的 灵敏 度 和 特异 性 等 所 有 资料 ( 条件 
B) 综 合 起 来 ,计算 出 这 种 特定 B ЖЇК ЫЛЕ, ЖИТ ИИИ SON SED] A 的 概率 , 则 PA 
B) ,从 而 得 出 遗传 病 发 生 的 风险 率 。 实 际 应 用 中 ,为 方便 起 见 , 常 通过 列表 的 方法 比较 直观 
地 推导 出 后 概率 ( 表 8 -4)。 


表 8-4 Bayes HHR 


| 是 А 基因 携带 者 不 是 基因 携带 者 
前 概率 Р(А) P(À) 
PARE P(BIA) РВА) 
联合 概率 P(A) x Р(ВІА) P(À) x PLBIA) 
后 概 举 P(AIB) P(AIB) 


回 到 上 面 所 举 的 例子 中 , 现 利用 Bayes 分 析 表 ( 表 8& -5) 来 计算 该 女性 生育 两 胎 正 常 男 
性 后 ,是 甲 型 血 友 首 携 带 者 的 咏 率 。 按 孟 德 尔 遗 传 规律 ,该 女性 星 携 带 着 和 不 是 携带 者 的 袜 
率 均 为 172( 前 概率 )。 当 她 是 携带 者 时 ,两 个 儿子 都 正常 的 条 件 概 率 为 1⁄2 x 1/2 = 144, 
此 时 联合 概率 为 172 x 1/4 2 1/8 ,依照 表 8 — 5 的 Bayes 分 析 表 可 以 得 出 她 为 携带 者 的 后 概 
率 为 175 , 较 前 概率 的 L/2 明显 人 下降。 理论 上 ,好 每 多 生 下 - -个 正常 男 胎 ,其 为 携带 者 的 概 
率 相应 地 诚 小 。 然 而 -号 生育 了 一 -位 患 血 友 病 的 男孩 ,那么 她 就 成 为 肯定 携带 者 ,从 而 推 
翻 了 以 往 所 得 出 的 什 何 后 概率 计算 结果 。 


表 8-5s X- EARR Baye 分 析 表 


H2 Ai A gx RHET 12 ЕНЕНЕ 
Bi epo 1/2 1/2 
条 件 概 率 172 x1/2=14 ] 
联合 概率 1/2 x 1/4 = 178 1/2 


后 概率 (1/8)/(1/8 41/2) = 145 (1/237 (1/8 - 1/2) 24/5 
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8.7.2 多 基因 病 再 发 风险 率 的 计算 

多 基因 病 在 家 系 中 的 再 发 风险 与 多 种 因素 有 关 ( 参见 2.3.2 1 B5) ,其 再 发 风险 率 的 估计 
一 - 般 根 据 以 下 玫 方 面 综合 评 个 。 

8.7.2.1 群体 发 病 率 与 遗传 度 

多 数 多 基因 病 的 群体 发 病 率 为 0.1 吕 -1%, 遗传 度 介 于 70% - 80 先 。 这 种 情况 下 可 
用 Edward 公式 来 估计 发 病 风 险 , 即 f=vyP。 其 中 /为 患者 一 级 亲属 发 病 率 ,P 为 该 群体 发 病 
率 。 例 如 我 国人 群 中 , 居 肚 型 的 发 病 率 为 0.17 名 , LEE THEO 76% ,因此 ,患者 一 级 亲属 的 发 
病 率 为 “0.001 了 , 约 等 于 4 吏 。 如 果 群 体 发 病 率 高 于 ! 名 或 遗传 度 高 于 8096 , 99 EB 8 — 28 28 
属 发 病 率 要 高 于 VP; 反 之 ,如 果 群 体 发 病 率 低 于 0. 196 noit fe EE ik F 7096 , 则 患者 一 级 亲属 
RERE TVP, 

8.7.2.2 一 级 亲属 患 病 人 数 及 亲缘 关系 级 别 

一 个 家 庭 中 患 病人 数 越 多 ,发 病 风 险 越 高 。-- 般 地 , 如果 有 两 位 一 级 杀 届 患 病 , 经 验 风 
险 率 就 相当 于 原来 的 1 售 ; 如 果 有 三 位 一 -级 亲属 患 病 , 再 发 风险 约 为 诛 来 的 3 售 。 例 如 ,一 
对 夫妇 生育 一 个 展 肚 裂 患 者 后 ,再 发 经 验 风险 为 4 名 ;如果 再 出 生 - :个 患 儿 , 则 下 次 再 发 风 
险 增加 2 ~3 倍 , 接 近 10% 。 另 外 ， 随 着 亲缘 疯 系 级 别 降 低 ,发 病 风 除 也 相应 降低 。 

8.7.2.3 Жжжж 

病情 越 严 重 , НЮ ope s ЖОЕ (E. ER ТЇН PAL К Pari B / ES LES t 2 LS 
фр tak Sh I| E. ЕБ ЙЕ (ШЕЕ RR LIS £2 36 ИЕ Ж ЭШ EOS. 8% ,而 散发 性 单 侧 唇 裂 的 
再 发 以 险 率 只 有 496, 3X REPRE EUER ЕНИ НЕН E EB AA RAE DAE HOT 189 НЕЕ 
高 ,所 以 生育 患 病 后 代 的 可 能 性 也 越 大 。 

8.7.2.4 患 病 者 性 别 

当 一 -种 多 基因 病 的 群体 发 病 率 表现 出 性 别 差 异 时 ,表明 不 同性 别 的 易 患 性 不 同 。 群 体 
恬 病 率 高 的 性 别 ,其 子女 发 病 风 险 低 ; 群 体 发 病 率 低 的 性 别 ,其 子女 的 发 病 风险 高 , 称 之 为 
Сапег 效应 。 因 为 在 群体 发 病 率 低 的 性 别 , 一 旦 发 病 ,表明 其 所 其 有 的 易 感 基因 更 多 , 才 有 
可 能 超过 阅 值 而 发 病 , 因 此 其 子女 的 发 病 风险 更 高 。 

8.7.2.5 近亲 婚配 

通常 多 基因 病 近 亲 婚 配 的 后 代 发 病 风 险 略 高 ,但 厅 如 单 基因 病 明 显 。 

8.7.2.6 经 验 风险 率 

由 于 上 述 这 些 因 素 之 间 的 关系 复 染 ,所 以 对 多 基因 让 传 病 的 再 发 风险 的 评估 通常 以 经 
验 风险 率 (empirie risk 表示, 并 可 以 通过 查 表 得 到 ,也 可 通过 专用 电脑 软件 计算 后 得 到 再 发 
风险 率 。 


8.7.3 ”染色体 病 再 发 风险 率 的 计算 

在 评估 染色 体 病 再 发 风险 时 一 般 遵 循 以 下 几 点 。 

(1) 如 柴 父 圭 的 楼 型 庄 常 , 子 女 中 有 染色 体 数 日 异常 的 染色 体 病 患者 ,上 表 生 育 子 率 的 再 
发 风险 与 正 党 群体 发 病 率 相似 。 
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(2 双亲 之 一 为 染色 体 平衡 易 位 携带 者 ,其 子女 再 发 风险 明显 升 高 ， 以 14/21 平衡 易 
位 型 21 三 体 携 带 者 为 例 ,其 后 代 活 产子 去 中 理论 上 有 1⁄3 为 正常 ,13 为 易 位 型 21 SRR 
合 征 患 者 ,1/3 为 平衡 易 位 型 携带 者 。 

(3) 双 亲 之 一 为 染色 体 病 患 者 ,由 于 多 数 染色 体 病 和 患者 不 能 生育 ,因此 子 代 青 发 风险 率 
较 难 预 测 ,-- 般 都 高 于 群体 发 病 率 。 如 21 三 体 综合 征 妆 性 患者 如 能 生育 ,其 子 代 再 发 风险 
率 约 为 173。 

(4) 随 着 母亲 妊娠 年 龄 增 大 ,生育 染色 惊 病 (尤其 21 三 体 综 合 征 ) 的 风险 逐渐 升 高 。 

(5) 当 一 位 孕妇 有 21 三 体 (或 13 —{Ж 18 三 体 ) 妊 娠 史 阻 性 时 ,其 再 发 风险 会 升 高 。 这 
是 因为 :中 这 些 妇女 持 殖 细胞 减 数 分 烈 过 程 中 的 染色 体 不 分 离 , 易 感性 高 ;名 夫妇 一 方 可 能 
是 低 水 平 性 镶 帷 体 携带 者 。 通 常 , 几 是 有 过 21 {Ж 13 三 体 或 18 三 体 妊娠 史 的 去 性 ,其 再 
次 生育 患 司 样 异常 患 儿 的 风险 会 比 同年 龄 对 照 组 的 高 0.5 和 。 如 果 将 35 S ULT ZR TERR 
一 组 ,而 将 35 岁 和 35 岁 以 上 的 归 为 另 一 组 ,那么 属 前 一 组 调 月 有 21 АЕ Е Mc НУ) 
孕妇 竺 次 生育 21 三 体 胎 儿 的 风险 为 19% ,而 属 后 一 组 者 则 应 根据 其 年 龄 查阅 有 关 风 险 率 计 
算 表 得 出 结果 。 

(6) 不 平衡 性 染色 体 病 再 发 风险 的 估计 ; 患 不 平衡 性 染色 体 病 的 婴儿 给 家 庭 利 社会 带 
来 的 影响 比 因 流 产 而 失去 胎儿 的 影响 更 为 严重 。 这 是 因为 当 染 色 体 片 跨 处 于 不 平衡 状态 
时 ,基因 组 也 随 之 失去 平衡 而 导 臻 是 胎 或 胎 巍 千 长 发 育 的 障碍 。 放 单 体 或 三 体 异 常 都 容易 
造成 机 体 畸 形 的 发 生 。 并 非 所 有 的 染色 体 畸 变 都 会 导致 不 平衡 性 染色 体 病 患 儿 的 出 生 。 通 
常 , 部 分 性 单 体 带 来 的 危害 比 部 分 性 三 体 的 要 大 。 在 评 知 生 彰 不 平衡 性 染色 体 病 子女 的 风 
险 时 ,一 般 要 从 三 个 方面 进行 考虑 : 名 单 体 片 段 越 大 ,胎儿 宫 内 存活 机 会 越 小 ;@@ 在 单 体 片 
段 和 三 体 片 段 则 时 存在 时 , 单 体 片段 的 效应 通常 占 优 势 ; 鲜 不 平衡 片段 越 小 ,胎儿 存活 至 分 
ЕЕЕ НАЕ ВО К, 


8.8 ”亲子 关系 排除 与 肯定 概率 


通过 对 人 类 基因 组 的 解析 ,发 现 人 与 人 之 间 99. 9996 的 碱 基 序列 都 相同 ,就 是 说 两 个 不 
同 个 体 间 平 均 每 一 万 个 碱 基 中 大 约 有 - :个 碱 基 的 差别 。 赴 是 这 些 DNA 序列 上 细微 的 差别 ， 
使 得 每 个 人 都 具备 区 别 于 他 人 的 碱 基 序列 标签 ,又 称 DNA 多 态 性 ,也 是 个 体 差异 形成 的 根 
木 原 因 。 同 时 根据 遗传 学 传递 规律 ,子女 的 身份 标记 必定 米 身 于 双亲 , 据 此 可 用 于 亲手 关系 
鉴定 。 目 前 最 常用 做 个 人 身份 的 DNA 标签 是 DNA 短 串联 重复 序列 (STR) 。 以 现行 国际 上 
常用 的 9 个 STR 位 点 为 例 ( 美 国 ABI 公 司 ) ,应 用 遗传 分 析 仪 进行 基因 型 分 析 , 个 人 识别 率 
达到 1.05 x107 272。 即 理论 虐 , 通 过 检测 这 3 个 STR 位 点 ,可 将 1 个 人 从 约 100 亿 人 中 鉴别 
出 来 , 亲 权 关系 排除 率 可 法 99.98% 以 上 。 这 一 有 为 的 个 体 识别 和 亲 权 鉴定 技术 手段 ,为 司 
法 审判 .侦察 破案 提供 了 科学 依据 。DNA 身份 标记 是 目前 亲子 鉴定 中 最 准确 的 一 种 , 较 以 
往 的 血型 分 析 和 HI.A 分 型 鉴定 方法 可 靠 性 高 出 10 到 100 售 。 如果 小 护 和 被 测 男子 的 DNA 
模式 在 一 个 或 多 个 STR GERI, 被 测试 田子 便 被 完全 排除 他 是 亲生 父亲 的 可 能 性 。 实 
际 应 用 中 ,对 于 亲子 关系 分 析 , 通 常 需要 给 出 相应 的 肯定 和 排除 概率 ,得 出 科学 而 客 驶 的 判断 。 
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亲子 关系 累积 肯定 概率 的 计算 公式 为 : 
W=PL(PI+1), PI = IL (PL) (公式 8 -21) 


RE PLR RARI (paternity index) ,等 于 携带 生父 基因 的 概率 ( 关 }/ 生 父 基因 的 频率 
(Y), SCRIP ,还 可 根据 条 件 概率 , 按 Bayes 公式 计算 W 的 后 概率 。 一 - 般 认为 , 当 和 > 
99.73% ,可 完全 肯定 亲子 关系 的 存在 ; 当 W <0.27 时 ,可 完全 排除 亲子 关系 ,但 须 同 时 考虑 
排除 概率 的 大 小 。 亲 子 关 系 累 积 排 除 概率 的 计算 公式 为 : 


P=1- П(1-р,) (公式 8 - 22) 
式 中 p. 表 示 各 多 态 位 点 的 排除 概率 ,与 等 位 基因 数目 和 亲 代 数目 有 关 , 详 见 参考 文献 ”| 。 
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第 9 章 药物 基因 组 学 与 化 学 信息 学 


药物 遗传 学 (pharmacogenetics) 和 药物 基因 组 学 (pharmacogenom- 
ics) 是 两 个 易于 混淆 的 概念 。 通 常 认 为 后 者 是 从 前 者 演化 而 来 。 药 物 
遗传 学 已 有 40 多 年 的 历史 ,而 药物 基因 组 学 是 基因 组 学 的 一 个 分 支 
(参见 第 3 章 ) ,是 近 10 年 来 随 基 因 组 学 的 发 展 而 兴起 的 。 药 物 直 人 忧 
学 主要 研究 药物 与 个 钵 特征 的 相互 作用 ,通过 对 各 种 表 型 的 研究 ,如 药 
物 在 个 伟 中 的 有 效 性 、 毒 性 、 硬 受 性 等 ,探讨 这 种 个 体 差 异 的 产生 与 个 
体 特征 性 生物 标志 物 (基因 多 态 性 ) 的 关联 性 ,从 而 预测 药物 在 个 体 的 
反应 性 。 简 而 言 之 ,药物 遗传 学 就 是 研究 决定 药物 反应 的 遗传 性 状 的 
个 体 差 异 , 即 个 体 的 基因 组 成 特点 如 何 决 定 药物 的 有 效 性 和 安全 性 。 
药物 基因 组 学 是 在 全 基 容 组 水 平 研究 药物 或 毒物 的 辫 应 , 即 系统 研究 
药物 如 何 影 响 机 体 的 基因 表达 。 与 药 牺 遗 传 学 不 同 的 是 ,药物 基因 组 
学 重点 针对 不 同 药物 对 全 套 基 因 组 表达 的 差别 ,从 市 确定 药物 的 反应 
性 ,而 不 是 针对 同一 种 药物 在 不 同 个 体 中 反应 性 的 差别 。 两 者 的 对 
照 参见 表 9 -1。 由 此 可 见 ,药物 菇 因 组 学 将 涉及 更 多 ,更 复杂 的 生物 
信息 学 方法 。 尽 管 这 两 者 的 区 别 非 常 明显 ,但 实际 应 用 中 ,药物 遗传 学 
利 药 物 基因 组 学 的 概念 常 相互 交换 使 用 ,本 章 将 涵盖 这 两 部 分 的 内 容 。 

化 学 信息 学 (chemoinformatics ) 的 概念 于 1998 年 首次 提出 ,可 看 做 
在 生物 信息 学 和 药物 基因 组 学 基础 上 发 展 的 一 个 分 支 学 科 , 也 是 化 学 
和 信息 学 基础 上 产生 的 交叉 学 科 , 包 括 药物 的 分 子 设计 、 分 子 靶 向 、 分 
子 模拟 和 相关 数据 库 等 。 目 前 化 学 信息 学 与 生物 信息 学 并 驾 齐 驱 , 成 
为 许多 制药 企业 .生物 技术 公司 .临床 化 学 研究 中 重要 的 工具 。 其 主要 
应 用 于 以 十 几 方 面 :名 D 根 据 用 户 要 求 设计 化 学 分 子 结构 , 从 相应 的 数据 
库 中 查找 有 关 的 结构 信息 :他 利 用 图 形 显示 ,比较 结构 的 相似 或 相同 
性 ; 念 储 存 和 检索 有 关 化 学 分 子 的 二 维 或 二 维 结构 ,并 模拟 分 子 间 的 相 
FEH. 
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表 9 -1 药物 遗传 学 和 药物 基因 组 学 的 比较 


药物 遗传 学 药物 基因 组 学 

研究 策略 研究 药物 个 体 太 应 性 的 差别 ,通常 不 同 药物 对 基 凡 表达 冀 的 影响 , 通 
SE ETE FE "AE BIKE PER 

研究 方法 主要 检测 SNP УЕ TERM mRNA #3608 

研究 日 的 为 患者 提供 更 好 的 治疗 方案 药物 衍 选 和 药物 设计 

研究 模式 一 种 药物 ,多 个 基因 组 多 种 药物 ,一 个 基因 组 

研究 重点 ат 药物 差异 性 


9.1 药物 个 体 反 应 性 的 遗传 基础 …” 


药物 反应 性 (drug response) 是 指 机 笨 对 药物 反应 的 程度 ,主要 包括 药物 的 有 效 性 和 毒 
性 (或 称 安全 性 )。 通 常 通过 监测 血 药 浓度 结合 表 型 观察 来 评价 药物 的 反应 性 。 血 药 浓 度 
分 为 治疗 失效 ,治疗 浓度 .毒性 水 平等 不 同 浓度 ,这 中 药物 的 药 效 学 { pharmacokinetics ) 和 药 
动 学 (pharmacodynamics ) 所 决定 。 

本 章 第 三 节 有 关 药 物 分 子 设计 中 将 介绍 其 中 有 关内 容 。 

药 动 学 主要 研究 机 体 如 何 作 用 于 药物 ,包括 药物 吸收 .结合 与 分 布 .生物 转化 或 代谢 ,以 
及 排泄 等 过 程 。 药 效 学 主要 反映 药物 如 何 作用 于 机 体 各 组 织 器 官 ,包括 药物 与 受 体 的 结合 
和 信和 号 传导 过 程 。 图 9 -1 示意 药 效 学 和 药 动 学 的 不 同 分 期 。 药 物 代谢 是 药 动 学 的 重要 环 
节 , 自 前 了 解 得 比较 清楚 ,分 [ 期 (功能 化 ) 和 期 (结合 ) 两 个 阶段 ,参见 图 9 - 2。 研究 药 
动 学 和 建立 一 些 数学 模型 ,这 也 被 纳入 广义 的 生物 信息 学 范畴。 日 前 已 有 相应 软件 问世 ,如 
ADAPT 软件 (version 1,1997), 

常见 的 药 动 学 遗传 差异 表现 在 药物 代谢 酶 类 ( drug - metabolizing enzyme, DME) ,常见 
的 药 效 学 遗传 差异 则 表现 在 药物 受 体 ,转运 蛋白 和 离子 通道 等 。 这 种 差别 在 不 同 个 体 中 可 
相差 10 ~40 信 ,因而 又 称 药物 个 体 反 应 性 。 通 常 区 分 为 反应 型 (responder) 和 非 反 应 型 
( non — responder) ,或 称 敏 感性 (drmug — sensitive ) 和 耐 受 性 { drug - resistant) 。 这 往往 涉及 多 
个 不 同 基因 ,同时 也 受 药 物 之 间 相 互 作用 以 及 环境 因素 的 作用 等 影响 。 
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药 动 学 


药 效 学 


图 9 -1 药 动 学 与 药 效 学 过 程 示意 图 


9.1.1 PREFERE 

基因组 多 样 性 (参见 3.1.4 节 ) 是 药物 反应 性 的 遗传 基础 。 就 是 说 ,由 于 每 外 今 体 的 中 
НЕ B ( make — up) 或 基 闪 组 不 问 , 表 现 为 对 同一 种 药物 的 药 动 学 和 药 效 学 上 的 差异 ,因而 
表现 出 对 药物 反应 性 的 不 同 。 对 荣 些 个 体 而 刘 的 治疗 剂量 可 能 是 另 一 些 个 体 的 中 毒 旗 量 ， 
或 表 更 出 副作用 (adverse drug reaction, ADR) 。 根 据 美 国 1966 ~ 1996 年 的 统计 资料 ,严重 和 
致死 性 的 药物 副作用 分 别 占 6.7 名 和 0.32% , 占 死 因 的 第 四 到 第 六 位 ,超过 因 肺 炎 和 糖尿 病 
引起 的 死亡 人 数 。 因 ADR 住院 患者 占 总 住院 人 数 的 7 多。 副作用 的 表现 形式 有 驳 种 ,可 以 
是 剂量 依赖 性 ,也 可 以 是 剂量 不 依赖 性 ( 如 过 敏 反 应 ) ,还 可 以 是 剂量 与 时 间 双 重 依赖 性 ( = 
积 效应 ) ,给 药 时 间 性 ,药物 找 退 性 或 无 法 预见 的 治疗 失败 。 融 作用 的 大 小 依 个 体 不 合 而 有 
差异 ,主要 受 遗 传 因素 控制 。 临 床 遗 传 学 将 那些 与 药物 遗传 性 状 相关 的 疾病 归 类 为 药物 遗 
传 堂 疾病 。 表 9 -2 所 列 为 常见 药物 过 传 学 疾病 或 性 状 。 另 外 ,其 他 一 些 非 遗 传 办 素 也 是 药 
ToRVMERI2E SEES BRA , DUE . 肺 . 肝 .心动 能 状况 ,年龄 与 性 出 ,药物 之 间 的 相互 作用 ,环境 和 
营养 因素 ,疾病 发 病 和 严重 程度 等 。 
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9-2 药物 代谢 酶 类 / 受 体 作用 的 分 其 


表 9 -2 канишны 


М-ДЕ NAT2, NATI ) 
Ж — 6 – ДЕН GOPD) i AE 
高 铁 还 原 血 红 和 蛋白 由 症 与 血红 蛋白 病 


NADH - 细胞 色素 上 还 原 酶 
P450 ЗАК Җ {К (СҮР) 
4 BEH BEHEREE GST) 
MARE EE SULT) 
硫 代 嗓 哈 甲 基 转 移 酶 { TPMT) 
ЙН ЖЕН Б ШИ (THMT) 
АЗЕМ O - P 33% СОМТу 
iB N - 甲 基 转移 酶 {HNMT) 
— Z E I ЖЕРЕ КЕНТ PONI ) 
UDP 34 BERE RE TESEWE(UGTI AT) 与 Gilbert 氏 病 
NAD(P)H Ж 0С ЧОО!) 
微粒 体 可 入 性 环 氧 化 物 水 解 酶 (EPHXHE EPHX2) 
非典 型 乙醇 脱毛 酶 (4DIT 与 酒精 中 毒 
CBE BS REC ALDH2) 与 酒精 中 毒 
oa 一 抗 胰 和 蛋白 酶 (AAT) 
-HREAN ACT} 
血管 紧张 素 转换 酶 ( ACE) 5j; ACE Зр 
过 氧化 气 酶 与 低 过 氧化 气 酶 血 疗 
ШЕ S SURE CDPY D) 55 S ERIS EE SE FE БЕЛҮ 
JT REER GENRES ВСНЕ ) 5j 35 THR HH 88 FR Sic Ug: UT = 
P53 EOS 5 — ЖОКЕ DE DE ДАШТ 
Жи КЕШЕ ЫИ P RETE 
SLT E] SEHE 
САНИ IEEE ЕК S 5 - dL E DER ml 2504 
e - ERBB2 过 度 表 达 与 乳腺 痛 的 早期 治疗 


en ERN 
ЖӨ ЕВЕ 
АТ (KVLOTI, KCNMB2 等 ) 与 
合 征 


FL TM 
ИЕЭ gene 

多 种 特异 性 有 机 阴离子 转运 蛋白 (MOAT) 与 
Dubin - Johnson 综合 征 
胰岛 素 耐 受 症 
BERE TEE 
视 紫 质变 时 与 色素 性 视网膜 炎 
ШЕЕ ЖОЛИ ЗЕЛЕ( AVPR2) 
钙 离 子 通 道 纳 党 定 受 体 (HRYRIL ) 与 亚 性 高 热 
维生素 B 内 在 因子 缺乏 证 

B - Ë LER XE RE X (E ( ADRBI, ADRB2, 
ADRB3) 与 哮喘 病 的 8 — 受 体 持 抗 剂 治疗 
WERKA IZ ACE 抑制 剂 反应 性 
Ж E BR Е ( ABCC8) 5 ü Ec DR ЛЕ БУТЕ 

5 - $$ fü З k (НТВ) 及 其 转运 蛋白 
( SLC6A4) ану АЕ 
EUREI DDR, DDR, ADR) 及 多 巴 胺 转 
i EICSLCG3) 与 精神 类 药物 反应 

- chemokine 受 体 (CCR5) 与 HI 感染 的 抵抗 性 
胆固醇 转移 蛋白 (CFTP) 与 降 胆 冰 醇 药 的 作用 

名 种 耐 药 转运 重 中 (MDRI1，MDR3) 与 化 疗 菇 
物 耐 受 性 
氨基 酸 转 运 和 蛋白 (SLC3A1) 与 胱 氨 酸 尿 症 
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9.1.2 药物 代谢 酶 类 ' 

主要 指 肝 脏 中 参与 药物 [ 期 入 期 作用 的 酶 类 。 这 些 代谢 酶 相关 基因 的 突变 可 导致 酶 
活性 丧失 ,因而 表现 为 代谢 底 物 的 堆积 ,这 些 个 体 被 称 为 "能 代谢 者 ”( poor metabolizer) ‚Ж 
于 出 现 药物 底 牺 的 扒 积 ,产生 毒性 反应 。 由 于 基因 重复 ,代谢 酶 活性 增强 ,使 得 某 些 药物 的 
代谢 过 于 敏感 ,这些 个 体 被 称 为 " 强 代谢 者 ”( ultra — extensive metabolizer) , 常 表现 为 对 药物 
的 耐 受 性 ,常规 剂量 下 表 项 为 治疗 失败 。 一 些 位 于 基因 编码 区 或 调节 区 的 SNP, 也 可 使 酶 的 
结构 或 构象 发 生 一 定 改 变 ,表现 出 酶 活性 增强 或 减 红 ,出 现 对 药物 的 反应 性 不 同 。 目 前 药物 
遗传 举 研 究 的 重要 内 容 之 - -就 是 存 这 些 代谢 酶 水 平 ,探讨 其 基因 型 与 表现 型 的 关系 。 

和 参与 药物 工期 作用 的 酶 专 司 功能 基 团 的 修饰 ,包括 水 解 .氧化 ,还原 .羟基 化 等 。 绝 大 部 
ЛЕ АННА Е, P450 Т.А СҮР) 的 作用 。 人 体 中 ,已 发 现 约 80 种 CYP, 每 种 CYP 的 
殿 化 特异 性 有 所 木 同 ,其 调节 作用 也 不 同 , 其 中 仪 5 ~6 种 CYP 酶 负责 钨 大 部 分 药物 的 钱 
谢 。 这 些 酶 当中 ,CYP2D6 ,CYP3A4 ,CYP2C19 的 多 态 性 高 ,是 迄今 为 止 ADR 研究 中 最 多 的 
3 种 酶 。CYP2D6 参与 30 多 种 药物 的 代谢 。 已 知 至 少 16 种 基因 变异 导致 无 闵 突变 .氨基酸 
蔡 换 . 微 卫星 重复 数 日 改变 、 基 因 重 复 或 缺失 等 ,导致 酶 活性 的 减 轮 或 增强 。 例 如 中 国人 
( J 30% ) 中 常 出 现 的 所 谓 爹 党 花 碱 (sparieine) — IE I ( debrisoquin ) 等 位 基因 ,导致 该 酶 
РЕ ГЕНЕТ Я НО УЕ ЕЕЕ TRA ood A Sr ZH ERI 
或 中 毒 反 应 。CYF3A4 参与 大 部 分 药物 的 代谢 并 影响 其 在 小 脑 中 的 吸收 。 已 报道 多 种 基因 
突变 可 影响 肝脏 中 该 酶 的 活性 ,其 中 较 常 见 的 是 启动 子 区 的 基因 多 态 性 。CYP3A4 与 药物 
反 记 性 的 关系 尚未 完全 尚明。 与 CYP2D6 .一样 ,该 基因 的 多 态 性 在 不 同人 群 中 有 所 不 同 。 
CYP2C19 的 多 态 性 可 影响 对 质子 介 拖 制剂 ( 抗 溃疡 药 ) 奥 美 拉 姥 (omeprazole) 的 代谢 ,常规 
剂 基 下 约 20% 的 欧洲 高 加 索 大 和 更 高 比例 的 亚 浏 人 中 ,表现 对 该 药 的 耐 受 性 。 

参与 药物 [期 作用 的 酶 是 将 内 源 性 的 极 性 分 子 与 药物 相连 ,以 利于 药物 的 排 洪 。 一 些 
斑 的 基因 变异 可 影响 个 体 对 某 些 药 物 的 反应 性 。 如 尿 喀 啶 二 碰 酸 葡 萄 糖 荆 酸 转移 酶 141 
(UGTIAI),N -乙酰 转移 酶 2 (NAT2) , 硫 代 味 哈 8 - 甲 基 转 称 散 (TPMT) 等 。UGT1A1 参 
与 亲 脂 性 化 合 物 和 内 源 性 物质 如 胆 红 素 的 解毒 。 启 动 子 区 的 多 态 性 可 改变 该 酶 的 表达 量 ， 
表现 为 对 一 大 类 药物 代谢 的 改变 。 NAT2 基因 的 纯 合 性 突变 导致 该 酶 活性 的 丧失 ,产生 剂 
量 依赖 性 的 药物 毒性 反应 , n BET nki S | fU B £L BE , 异 烟 肝 引 起 的 神经 损害 .磺胺 药物 引起 
的 过 敏 反 应 等 。TPMT ЖЕН ЕЗ КЕ Ж 29 2] a PK P aj ER WS .6 — ЗЛЕ ВАЕ A 
转化 ,在 革 些 病人 中 可 导致 造 而 系统 致命 的 毒性 反应 o 


9.1.3 HERA] 
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用 有 类。 吸收 和 转运 过 程 涉 及 一 系列 腊 转 运 蛋 白 (transporter) „ЕЛА A НЧ Уу REOR E 
液 平 衡 的 维持 有 关 。 据 估计 ,人 类 基因 组 中 合 500 ~ 1 200 种 转运 重 白 ,与 药物 转运 有 关 的 
和 蛋 句 了解 得 最 请 丰 的 是 多 种 耐 药 重 白 ( multidrug resistant protein, MDR) ,已 明确 的 其 他 药物 
转运 蛋白 有 多 种 谢 药 相关 蛋白 (MRP) .有 机 阴 高 子 转运 多 肽 (OATP) .有 机 阴离子 转运 蛋白 
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CARM MDR 有 MDR1 ,MDR3 和 SPGP。 其 中 研究 最 多 的 是 MDR! ,编码 P — Е А, 
有 具有 多 态 性 。 这 种 转运 淮 白 将 许多 结构 不 同 的 药物 ,人 简 如 许多 种 痛 化 疗 药物 .HTY ЕРА КН 
制剂 .CYP3A4 代谢 产物 等 , 泵 出 细胞 外 , 送 回 到 肠管 中 。MDRI1 的 作用 物 通常 是 亲 脂 性 或 
为 两 性 分 子 , 售 有 一 个 或 多 个 芳香 环 。 第 26 外 显 子 的 -种 多 驴 性 (3435C >T) 可 导致 小 肠 
中 PP -~- 糖 重 轨 减少 ,与 地 高 辛 的 慢 豚 收 有 关 。 同时 具有 TT 基因 起 者 较 CC 或 CT 基因 地 者 
血浆 地 高 辛 浓度 较 高 ,这 是 民 致 个 体 ADR H ERA. 

还 有 一 类 参与 药物 转运 的 重生 又 称 血 净 结 合 重生 ,主要 包括 血清 白 重 户 .a -RRE 
白 。 这 些 蛋 卢 的 多 态 性 也 可 导致 药物 反应 的 个 体 差异 。 如 血清 白 蛋 外 的 末 种 变异 体 , Can- 
terbury ( Lys313Asn) 和 Parklands ( Asp365 His) n] SE SML A 2 A БЕЕК warfarin) ,水 杨 
Reik .安定 等 药物 的 亲和力 降低 。w -RRE A BJ AED] AP Een] ep cs Ae Bob LS EIE SZ 
物 的 结合 上 下 降 (B dfe pur zo TR Sens eah, — в GEGÉ S ET LR RS TB B. 
钙 离 子 通 道 等 也 参与 药物 在 体内 的 转运 与 分 布 。 


9.1.4 ЕЖ" 

Е ЕИ EP ЕЛА PTH ЕН, ЗА Н НЕН. xx 26 32 ч HE ЛА 22 IK 
TIE SENSE р, Н 8, — E LR SR EE ЕДА НА LG XE PJ 2 И ЕЕЕ 
ЖАН ACE) ЗЛ АЕ A RIBNESE. CPP, ЖЕЛЕНИ НГЕН РАВЕНА, AE 
氧 物 酶 体 增殖 物 激活 受 体 y -2 (PPAR -у-2)„ EREE ЕРЛИ ЖЕЛИН S AFE, pr aE xf 
药物 的 敏感 性 , 即 药 动 学 的 改变 。 这 些 靶 分 子 也 常 与 疾病 的 易 感 性 有 关 , 如 PPAR -y -2 5 
ЇЇ Ж b og BH EST BE RE FERE EJ ( CETP) 与 冠状 动脉 嘲 样 硬化 B: — EF ERR BERE DIE УВ на, 
ACE БЕТЕ, 

BUNTE, ES ADR (ds E ERRADA aAA e EUR ERIS (ПШ, Е АВ 
原 基 因 3 ' JE Dx By ee u] 2 C ЖЕНИП ЖЛЕ 25 F t LER TE pk BJ fr po PETS МП, HE 
如 ,由 于 ranodine З [RE [E] Н] ЖЕ АЕ, E H c БЕЛИ RH БЕЛУ SE LEGE HE RJ, п B E B A ЛУ. 
也 有 部 分 药物 的 ADR ЖЕБЕНИН qa A ЇЇ д, Ж ЖЕТЕН RD, PLE D, 受 体 的 多 态 性 
与 服用 安定 类 药物 引起 的 迟缓 型 运动 障碍 有 关 , 这 种 密 态 位 点 也 是 药物 作用 的 靶 位 点 。 


9.2 药物 遗传 性 状 的 鉴定 方法 … 


日 前 已 得 到 公认 的 是 ,药物 反应 性 或 药物 遗传 学 疾病 是 -种 多 因素 复杂 性 状 ,又 称 药 物 
遗传 性 状 。 因 此 ,药物 遗传 性 状 的 分 析 方 法 依照 8.5 节 中 多 基因 性 状 分 析 方 法 。 两 种 基本 
的 研究 方法 是 候选 基因 研究 ( candidate gene studies) 和 全 基因 组 连锁 不 平衡 作 图 (whole ge- 
nome linkage disequilibrium mapping). KARAER A RAIO. RERAMA RRA n 
靠 的 疾病 基因 或 药物 反应 相关 基 办 的 资料 , 才 有 可 能 找到 这 种 关联 性 。 全 基因 组 LD 作 图 
往往 需 开 样品 量 天 ,而 且 SNP ЖЯ НЕ ПГ ЕЁ ЖЖ ИШ Ёк НЧЕ, RA 
种 方法 常 联合 使 用 ,以 相互 到 长 补 短 , 即 通 常 先 采用 全 基因 组 扫 措 方法 ,找到 关键 区 ,再 根据 
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要 的 SNP 标记 物种 类 和 数量 ,以 及 根据 SNP 的 连锁 不 平衡 性 ,确定 SNP 单 体型 的 区 间 大 小 
和 人 和 群 中 的 频率 ,相关 问题 的 讨论 参见 3.5,2 节 。 由 于 基于 SNP 单 体 型 的 全 基因 组 作 图 方 
法 尚 在 建立 之 中 ,而 且 昕 前 的 应 用 成 本 较 高 ,因此 , 王 阶 段 主 要 依靠 候选 基因 研究 的 方法 来 
分 析 药 物 中 传 性 状 。 常 用 关联 和 分析 方法 (association study ) EWA SNP 与 药物 遗传 性 状 的 关 
联 性 。 基 因 与 药物 的 相互 作用 需要 进一步 利用 药物 基因 组 学 方法 加 以 证 实 。 


9.2.1 候选 基因 研究 中 的 病例 对 照 分 析 CO 

候选 基因 研究 主要 根据 以 往 的 实验 资料 或 知识 ,探讨 药物 反应 性 与 那些 药 动 学 . 药 效 
学 .病理 学 相关 的 基因 之 间 的 关系 。 通 常 是 利用 病例 对 照 资料 ,分 析 阁 干 候选 基因 的 SNP 
(主要 为 SNP ?与 药物 反应 性 的 关联 性 (assnciation) 或 相关 性 ( correlation) 。 统 计 方 法 参见 
第 10 竟 。 

病例 对 照 资 料 的 候选 基因 研究 中 ,有 以 下 几 个 值得 注意 的 问题 。 

9.2.1.1 SNP 49 X- I S ФЯ SNP 的 数量 | 

人 群 中 当 某 个 感 兴趣 的 SNP 基因 型 频率 小 平 0.2 ВЧ, ен ЖЕНИ ЕТ ИЧЕ, КЕЧЕ BTE 
到 的 几率 比值 特别 高 。 对 于 这 种 罕见 .少见 基因 型 的 分 析 , 即 使 增加 样品 量 , 帮助 也 不 大 。 
With ujpa Ze — Re MERE AE SNP 进行 分 析 ,又 称 多 种 分 析 ( multiple testing)。 多 种 分 析 时 
常 需 要 利用 Bonferroni 不 等 性 (Bonferroni inequality ) 原理 进行 校正 ,校正 公式 汶 : 


P«2l-(1-p)" (公式 9 一 1) 


式 中 ,P* 表示 总 概念 ;p 表示 观察 概率 值 , 即 待 校正 概率 值 ;n 表示 检验 假设 的 数 且 。 当 几 个 
SNP 之 间 存 在 LD 时 ,该 校正 公式 不 得 用 , 邯 可 能 出 现 假 阴 性。 

9.2.1.2 病例 和 对 照 的 选择 

病例 对 照 研究 中 的 病例 和 对 照 的 选择 较 关 键 , 其 设计 方法 下 文 将 叙 及 。 通 常 认 为 所 选 
病例 和 对 照 之 间 ,要 求 各 组 种 族 . 性 别 ,年龄 等 最 好 相 匹 配 。 如 果 出 现 明显 的 人 和 群 分 层 现 象 
( population stratification ) ,最 好 改 用 基 十 家 系 资 料 的 关联 分 析 ,如 TDT a% ASP 法 (参见 8.5.3 
T). 

9.2.1.3 Жа 

关键 在 于 候选 基因 的 选择 和 该 基因 中 SNP 的 选择 。 分 析 绩 昌 为 阳性 时 , 仍 要 注意 所 选 
基 内 是 否 具 有 生物 学 意义 ,以 及 所 选 SNP 是 和 否 与 该 基因 的 功能 改变 有 关 。 一 项 有 意义 的 研 
究 结果 最 好 能 有 不 同方 法 重复 其 阳性 结果 。 例 如 ,用 病 贫 对 照 分 析 的 结果 ,最 好 能 用 ТОТ 
或 ASP 方法 重复 出 来 。 

9.2.1.4 极端 不 一 致 表 型 分 析 (extreme discordant phenotype, EDP) 

该 方法 属于 病例 对 照 分 析 用 于 药物 反应 性 研究 的 特 吻 方 法 "| 。 一 般 地 , 随 荐 药物 剂量 
的 增加 ,更 多 的 患者 表现 出 毒 件 效 应 , 即 毒 性 发 生 率 增加 。 同 时 人 群 中 仍然 使 用 该 药 而 不 表 
现 毒 性 的 人 越 来 越 少 。 将 那些 接受 最 小 剂量 但 表现 出 强烈 毒性 反应 者 归 为 “极端 敏感 型 ” 
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例 和 对 照 组 ,分 析 暴 露 于 候选 基因 的 SNP 或 等 位 基因 下 的 相对 危险 度 或 几率 比值 , 米 揭示 
药物 反应 型 写 易 感 基因 的 关联 性 。 这 项 研究 中 ,不 考虑 那些 给 予 中 等 剂量 或 出 现 中 度 反 应 
的 人 ,因此 大 部 分 研究 对 象 末 被 考虑 ,为 了 使 样品 晤 达到 一 定 要 求 , 往 往 所 研究 的 群体 要 足 
ERK EDP 方法 是 解析 药物 反应 性 的 常用 方法 ,在 此 基础 上 ,结合 ASP 方法 发 展 为 修 于 


EDP iX, 
9.2.1.5 AEH 


基于 SNP 的 病例 对 照 研究 中 ,所 句 样 品 基 与 SNP 等 位 基因 频率 和 要 求 的 统计 效能 ( sta- 
tistical power) 有关 。 表 9 -3 所 列 为 几率 比值 超过 1.5 ,统计 效能 等 于 380% , T 类 错误 概率 а 
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389-3 SNP 病例 对 照 研究 样本 量 的 估计 [0OR 关 1.5, 统 计 效 能 =80% ) 


Ж fr МЕ [H EER A AETH 

.频率 名 病例 组 BOE E 病例 组 к= 

{对照 组 ) PEFR) _ а=0.05 — a -0.005 RQ PPG)  œ=0.05 a-0.005 
0 19 430 — ЕЛ I 6 113 10 070 
20 36 311 516 4 1 600 2 637 
30 51 308 512 9 769 1260 
4t) 64 354 590 16 485 802 
50 75 456 762 25 363 602 
60 84 661 1 107 36 311 516 


9.22 全 基因 组 连锁 不 平衡 作 图 '" 


进行 基因 组 SNP 连锁 不 平衡 分 析 的 假设 是 SNP 之 间 存 在 LD( 即 SNP 单 体型 ) ,办 此 该 
方法 的 分 析 效 能 取 决 于 SNP 的 等 位 基因 频率 和 这 些 SNP 之 闻 的 LD 的 区 间 大 小 。 群 体 混 
杂 Gu FUE LE DR EE .自然 选择 等 多 种 因素 影响 LD 区 向 大 小 ,平均 为 5 - 150 如 ,参见 
3.5.2 节 。-- 种 简化 全 基因 组 打 描 的 方法 是 专门 针对 位 于 大 类 基因 组 中 约 3 万 个 功能 基因 
上 的 LD, 这 可 避 开 大 朋 位 于 基因 间 序 列 的 LD, 从 而 减少 工作 晶 ,提高 检测 效率 。 

鉴定 LD 的 方法 主要 是 通过 实验 ,进行 SNP 的 基因 分 型 。 所 涉及 的 分 析 方 法 常用 最 大 
似 然 性 分 析 ,利用 EM 运算 法 则 ,计算 群体 中 LD 的 频率 。LD 作 图 分 析 中 ,由 于 所 采用 的 LD 
分 析 不 够 精确 , 仍 可 遗漏 某 些 关 键 的 SNE ,导致 分 析 结 果 的 假 计 性。 补救 的 办 法 是 在 锁定 革 
个 候选 基因 后 ,最 好 对 该 基因 内 所 有 的 SNP 进行 测定 和 统计 分 析 。 

3.5.2 节 中 详细 论述 了 单 核 音 酸 多 态 性 (SNP) 的 连锁 不 平衡 现象 及 LD 区 间 大 小 的 影 
HARK. LD 的 发 生 与 群体 泥 合 .自然 选择 .遗传 谭 变 .新 突变 产生 等 因素 有 头 。 根 据 LD 的 
分 布 进行 疾病 基因 的 关联 分 析 是 目前 多 基因 性 状 研究 的 三 大 常用 方法 之 一 (其 他 两 种 方法 
为 TDT 和 ASP) ,简称 LD 基因 定位 (LD mapping)。 影 响 LD 基 内 定位 的 因素 很 多 ,包括 标 
记 物 的 密度 .样品 大 小 ,疾病 发 病 率 、 等 位 基因 颅 率 ,人群 和 种 族 差异 等 。 用 于 LD 分 析 的 样 
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ar ,特别 是 病例 对 照 研 究 样品 ,应 作 Hardy ~ Weinberg 平衡 检验 。LD 基因 定位 分 析 步 又 为 ; 
中 随机 群体 中 进行 SNP 作 图 ;OSNP 单 体型 分 析 ;{BSNP 单 体型 中 标签 SNP 的 鉴定 ;由 分 析 
样品 的 标签 SNP 基因 型 分 析 ; 吕 关联 分 析 和 统计 推断 。LD 的 表示 是 通过 计算 D' 值 。D' 的 
计算 可 通过 软件 给 出 ,如 GOLD £X E, £ UL hupi/Zwww. sph. umich. edu/csg/abecasis/ 
COLD, 

用 于 1D 作 图 样品 量 的 要 求 , 需 要 根据 SNP 等 位 基因 频率 . 受 检 SNP 的 数量 .LD 的 大 小 
来 确定 。 随 着 连锁 不 平衡 性 的 D "* 值 的 降低 .可 检测 的 相对 风险 也 降低 ,关联 性 研究 越 难 判 
Br ,因而 席 要 的 样品 量 更 大 。 样 品 量 与 D 值 的 关系 如 小 : 


N/(D'y {公式 9 -2) 


上 式 中 N XI D 人 霸 等 于 1 时 {完全 1 上 LD), 关联 分 析 所 需 样品 数量 。 如 进行 某 个 药物 
遗传 性 状 SNP 的 关联 分 析 所 需 样品 为 400 (参见 表 9 -3) , 当 另 - -个 SNP iR ZUR ETE 
状 SNP Кр DEA 0.7 时 , 则 进行 关联 分 析 所 需 样品 数 为 36。 


9.2.3 ”药物 基因 组 学 研究 方法 的 设计 中 

药物 基因 组 学 研究 大 致 分 为 于 淖 性 研究 (interveational study ) 和 观察 性 研究 (observa- 
tional) 两 大 类 。 前 者 又 称 临床 试验 (clinical trial) ,后 者 主要 包括 病例 对 照 研究 (case ~ con- 
trol. study ) 各 队列 研究 (cohort study) 。 临 床 试验 的 优点 是 能 对 许多 试验 影 啊 央 素 通 过 对 照 
组 设计 进行 消除 ,如 治疗 适应 证 ,年 龄 .性别 .剂量 ,给 药 时 间 和 闫 应 性 等 。 同 时 临床 试验 中 ， 
通过 服用 安慰 剂 (placeboe} 作 为 对 照 ,有 利于 揭示 药物 与 基因 间 相 豆 作 骨 的 肉 在 联系 ,并 区 
务 疾病 基因 和 药物 遗传 性 状 。 随 普 人 类 基因 组 计划 的 党 成 ,临床 试 允 的 证 计 可 对 对 整个 基 
因 纽 的 表达 ,这 是 通过 比较 药物 对 不 同 组 织 或 细胞 株 基 内 表达 谱 的 区 别 ,寻找 药物 的 靶 向 基 
因 , 从 而 改定 药物 反应 性 的 方法 。 基 国 表 这 芯片 或 药物 迄 选 芯片 应 运 而 生 ,参见 第 7 章 。 

药物 上 市 前 ,如 果 末 进行 信 期 临床 试验 , 常 顷 困 用 病例 对 照 研究 和 队列 碘 究 进行 药物 疗 
效 和 安全 性 观察 。 病 例 对 照 研究 主要 采用 加 顾 人 性 分 析 , 记 录 有 上 服药 并 出 现 药物 反应 者 (病例 ) 
和 | 服药 得 未 出 现 药物 反应 者 {对照 ) ,根据 相让 的 基因 型 ,通过 计算 几率 比值 ,分 析 林 固 型 与 
药物 反应 的 关联 性 。 队 烈 研究 主要 采用 前 瞻 性 分 析 , 观 察 -组 服药 后 的 其 列 , 哪 些 出 现 药 物 
反应 ,哪些 未 出 现 药物 反应 ,再 比较 这 两 组 中 与 某 种 基因 型 出 现 的 频率 , 即 相对 和 危险 度 ,以 分 
析 基 因 型 与 药物 反应 的 关联 性 。 通 常 需要 根据 研究 的 性 质 玉 决定 采用 何 种 观察 性 研究 方 
法 。 队 列 研 究 ,一 : 般 需 要 观察 5 000 例 以 上 患者 ,以 保证 药物 反应 组 有 250 例 以 上 ,但 通常 
需要 连续 观察 较 长 时 间 ,才能 评价 药物 反 记 是 否 出 现 。 病 例 对 熙 研究 较 适 合 于 发 生 率 低 于 
3% 的 药物 反应 性 状 , 以 及 对 药物 的 长 期 (10 ~20 年 ) 有 效 怀 的 观察 。 表 9 -4 比较 了 药物 基 
因 组 党 研究 中 3 种 带 用 设计 方法 的 优 缺 点 。 
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表 9-4 药物 基因 组 学 研究 的 常用 设计 方法 比较 


病例 对 照 研 究 队列 研究 临床 试验 
设计 原理 病例 :服药 并 出 现 药 物 ”选择 一 队 患 者 进行 给 ”随机 对 患者 进行 分 组 ; 
反应 者 ; 药 { 他 们 服药 前 不 知道 是 ”服药 {或 者 安 黑 剂 ) 组 ,不 
对 照 :服药 但 未 出 现 药 ”再 对 该 药物 有 反应 ) ,在 ”服药 组 
物 反应 者 一 定时 间 内 按 是 否 出 现 
反应 进行 分 组 
药物 反应 发 生 ”发 生 在 选择 研究 对 象 ”发 牛 在 选择 研究 对 象 ”发 生 在 选择 研究 对 象 
时 间 之 前 , 属 隔 是 性 研究 ( 需 之 后 ,通常 是 前 脆性 研 之 后 ,局 前 脆性 研究 
览 界定 病例 和 对 照 的 标 ” 究 ,也 可 以 是 回顾 性 研究 
准 ) (根据 医疗 记录 ) 
观测 指标 基 困 与 药物 的 相互 作 ” 基 内 与 药物 的 相 开 作 ”基因 或 药物 的 单独 作 
用 ,但 无 法 测定 基因 或 药 “ 用 ,但 无 法 测定 基因 或 药 用 以 及 某 因 与 药物 的 相 
物 的 单独 作用 物 的 单独 作用 互 作用 
对 罕见 数 应 最 有 效 (如 药 ”不 是 根据 是 表 对 药物 “最 准确 ,可 排除 许多 影 
качкы 物性 肝炎 出 现 友 应 而 选择 研究 对 MARAT 
^ 象 ,因此 较 适 合 连续 性 药 
物 反应 性 状 
剂量 、 通 应 征 .给 药 时 对 前 脆性 研究 ,其 缺点 。 需要 是 够 的 随访 时 间 
ir: 间 等 因素 未 标准 化 ,因此 MERRE; 对 于 回顾 性 ”以 观察 药物 效应 的 出 更 


可 对 针 果 分 析 产 生 干 狂 


BESE ,其 缺点 同 病 例 对 赂 
研究 


9.2.4 药物 基因 组 学 常用 技术 平台 C 


药物 基因 组 学 研究 中 ,涉及 的 方法 有 多 种 ,主要 为 三 大 技术 平台 :SNP 分 型 .基因 表达 芯 
片 和 生物 信息 学 。 这 里 着 重 介绍 SNP 分 型 技术 平台 。 直 因 表 达 醋 究 可 用 于 候选 基因 的 篇 
选 ,在 药物 筛选 中 也 起 重要 作用 。 目 前 主要 应 用 cDNA 芯片 技术 ,其 他 如 差异 显示 {(DD) f 
表 性 差异 分 析 (RDA) ,抑制 性 消减 杂交 (SSH) .基因 寻 呼 (GeneCalling) 等 也 是 基因 表达 研 
究 中 的 常用 方法 。 有 关 基 因 表 达 芯 片 内 容 参 见 第 7 章 。 药 物 基 因 组 学 中 涉及 的 生物 信息 学 
内 容 主 要 是 数据 管理 .DNA 序列 分 析 .SNP 数据 库 ,蛋白 结构 分 析 与 预测 蛋白 与 蛋白 或 配 
体 之 间 的 相互 作用 .代谢 途径 分 析 、 表 达 数 据 库 , 生 物 影 像 学 ,数据 统计 分 析 等 ,相关 内 容 分 
布 于 本 书 不 同 章节 。 其 他 药物 基因 组 学 研究 相关 的 技术 平台 还 包括 基因 组 学 .蛋白 组 学 . 药 

SNP 的 测定 主要 基于 PCR 技术 基础 上 ,与 传统 点 突变 检测 方法 相似 ,可 大 致 分 SNP fti 
查 方法 和 SNP 分 型 方法 两 大 类 。 前 者 主要 是 针对 某 基 基 区 段 中 的 未 知 SNP 的 检测 方法 ,如 
单 链 构象 多 态 性 分 析 (SSCP) ,变性 高 效 液 相 色 谱 (dHPIC)} 3E PEBSHEBEBE НЕК ( DCGE) „ж 
源 双 链 分 析 (HA) 等 ;后 者 则 是 在 已 知 的 与 药物 反应 性 有 关 的 SNP 基础 上 ,对 患者 进行 SNP 


分 型 方法 ,如 限制 性 片段 长 度 多 态 性 分 析 (RFLP) ,2| 95 E 8h33; PEX ) sk S WEBER 
( pyrosequencing) , Si 3E IRE SEHHESEECEERR ZR SC ASO) ,等 位 基因 特异 性 扩 增 技术 (ASA) 
以 及 DNA 青 接 测序 技术 (DS) 等 “。 适 合 于 药物 基因 组 研究 中 的 SNP 分 型 方法 ,要求 操作 
简便 ,准确 性 高 ,高通 量 ,成 本 低 。 目 前 基于 上 述 点 窒 变 检测 方法 原理 ,已 发 展 出 几 种 常用 的 
自动 化 ,高通 量 的 SNP 检测 技术 ,参见 表 9 -5。 各 实验 室 可 根据 自己 的 经 济 条 件 .技术 水 
平 . 检 测 目 的 检测 要 求 等 合理 选用 . 


表 9 -5 常用 SNP 检测 方法 的 比较 


EMR AEM E 检测 通明 ”检测 成 本 MEME 自动 化 程度 ”操作 简 使 性 

drIPLC 4s 单 链 构象 SE T Sm oM 中 等 
dHPLC 

DR REG 质量 高 RASE Nm Ñ 中 等 
电荷 PCR } 

ЖЕЙ mem) y qz 引物 延伸 m 中 等 高 E 高 
焦 磷 酸化 

荧光 定量 PCR {X ASO i pm 较 高 高 高 

DNA 4H ASO 高 SNP 数 极 高 4& 低 极 低 
微 阵 到 f£g Ж 

DNA 测序 Sanger 法 低 到 中 高 高 高 高 
ЖЕНЕ HR DK 


9.2.5 个 体 化 医学 在 诊断 和 治疗 中 的 应 用 …” 

dE 3.4. 2 节 有 关 应 用 基因 组 学 发 展 中 已 介绍 药物 反应 性 在 个 体 化 医学 中 的 应 用 。 个 体 
化 医 堂 的 发 展 主要 建立 在 人 类 基因 组 多 样 性 和 药物 基因 组 党 的 基 栅 上 。 量 前 已 明确 许多 多 
因子 性 状 的 易 感 基因 或 位 点 ,参见 3.4.1 4063 -3。 同 时 ,药物 造 传 性 状 也 得 到 进 - ЭР ЙЯ 
明 。 表 9 -6 所 列 为 常见 药物 反应 的 相 甘 基因。 这 些 多 基因 性 状 和 药物 反应 性 状 已 逐渐 应 
用 于 临床 诊断 和 指导 个 体 化 治疗 ,大 大 手语 了 预测 医学 (主要 是 指 " 差异 诊断 , differential 
diagnosis) 和 基 国 诊断 的 内 容 , 也 司 药 物 治疗 更 加 赵 汗 安全 和 上 有效 。 药 物 基因 组 学 在 个 体 化 
医学 中 的 应 用 上 且 标 是 期 望 每 个 个 体 达 到 月 药 的 最 佳 效 来 ,同时 出 作用 降 到 最 低 , 即 为 不 同 的 
基因 型 提供 最 适合 的 药物 (“基因 型 证 应 证 ” ) ,或 者 确定 “基因 型 些 总 证 ”。 

目前 临床 上 已 开始 对 治疗 前 的 患者 进行 基因 型 分 析 , 以 避免 那些 可 能 产生 的 严重 药物 
副作用 。 如 利用 抗 瘤 药 5 — SERRE Vd PT AI , r = DRE — SU Rue DS SUBE ES Da) A [RETI , VL а 
钢 产 生 严 重 的 毒性 。 器 官 移植 中 , PH ЖЕШ SIRE МЕИЛИ ТД ТҮТИ. ЖИЙ Er Bic FCR S - 
H ЖЕЕ CRISE ES Е ДЕ y DA] ЖЕЛЕ KI , WE h Sk УЕ YE BS In 38 ЖЕ DERE PETER a 

最 近 Chang 等 ”报道 用 基因 表达 芯片 方法 预测 docetaxe] 对 乳腺 瘤 治疗 反应 性 ,这 是 首 
次 利用 基因 表达 图 谱 来 预测 药物 个 体 皮 应 性 ,上 比 单纯 利用 某 个 基因 的 SNP 来 评价 可 靠 性 更 
高 。 该 项 研究 中 , 共 研 究 了 24 例 乳 腺 癌 患 者 ,发现 11 例 (46 铝 ) 对 docetaxel 敏感 ,13 例 
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(5450 ) ЖН. AAIR 92 种 基 央 的 表达 在 这 两 组 病人 中 出 现 的 表达 量 明显 不 同 
(Р =0.001) 。 人 敏感 型 惠 者 中 ,78 种 过 度 表达 的 基因 主要 涉及 细胞 凋 六 .细胞 骨 摧 LAT 
附 .蛋白 转运 ,信号 传导 КМА 剪 切 或 转运 等 ;而 耐 受 型 忠 者 中 ,14 种 过 度 表 达 的 基因 主要 与 
蛋白质 翻译 ,细胞 周期 和 RNA 转录 有 关 。 分 别 以 这 两 组 基因 的 灾 化 进行 约 物 反应 性 的 评 
fr ,阳性 和 阴性 预告 值 分 别 为 922% Я 83% , ROC 曲线 下 耐 积 为 0.96, 上 共有 恨 好 的 预测 作用 。 


表 9 -6 常见 影响 药物 反应 的 基因 型 


药物 i pj 基因 型 | 药物 反应 性 | 
HERCEFTION TIER2 表达 型 该 药 充 对 约 1/3 BILE de MEER 
( trastuzamab ) 的 患者 有 效 

PEREDE E TPMT ЖЕЛЕ ЖЕҢЕТ ЕЕ ИЕ ТЕТЕ, Фарса Д 
C azathioprine } ( null mutation ) ZhBUEETE 0 E PES XR da Еи 
6 - З MESE 性 毒性 

5 - ҖЕ DPD 零 突变 突变 后 导致 该 酶 活性 丧失 ,缺乏 对 该 
(5 - FU) 药 的 降解 ,产生 毒性 

EAE USE NAT2 ROUES UM EVANS ТЕЛЕ K pe Л: ЖЕТЕ 
5 ДАШ m EE ME 

MARRE 

AA CYP2D6 sparteine 一 药物 治疗 无 歼 { 无 反应 ) 

ЕТЕ BS debrisoquin 

пр 等 等 位 基 内 

ABT - 761 ALOXS 启动 子 SNP 药物 治疗 无 效 ( 无 友 应 ) 

《 抗 哮喘 药 ) Spl 结合 其 序 

抗 AIDS 药物 CERS A32 RUN PORE M H ADS AAR 

地 高 辛 等 MDH1 3435C > 了 引起 血浆 地 高 辛 浓度 增加 

华 法 林 ALD Lys313Asn SWAGA A D од ERR, 
Ж Ав 影响 药 动 学 

安定 等 р36511в 

STI - 571 ВСЕ - ABL Thy315lle 出 现任 药性 


基 央 芯片 在 药物 基因 组 学 的 临床 应 用 的 另 -大 领域 是 用 药方 案 的 选用 和 预后 评价 。 有 
报道 对 儿 种 常用 的 急性 淋巴 细胞 性 白血病 化 疗 药物 的 疗效 观察 中 ,通过 研究 不 同 临 床 分 期 
患者 用 药 后 基因 组 水 平 的 变化 ,以 及 比较 不 同化 疗 方案 对 基 内 组 表达 的 影响 ,进行 聚 奖 分 析 
(clastering) 。 根 据 聚 类 资料 既 可 评估 疗效 和 撰 后 ( 复发 或 消退 ) ,也 可 评价 化 疗 药物 联 用 与 
单 用 效果 的 区 别 ,用 于 指导 用 药方 案 的 确定 。 总 之 ,基因 芯片 结合 药物 遗传 学 或 约 物 基因 组 
学 的 研究 ,在 个 体 化 治疗 中 的 应 用 尚 处 于 初步 应 用 只 段 ,预计 随 着 技术 的 完善 和 成 本 的 降 
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低 , 其 应 用 将 更 加 广泛 和 普及 。 和 值得 注意 的 是 ,人 体 是 一 个 极其 复杂 的 生物 体 , 个 体 化 诊断 
只 是 提供 -- 种 可 能 性 的 推断 ,但 并 非 是 绝 然 性 的 ,还 受 许多 环境 因素 或 基因 问 相互 作用 的 
LAM 


9.3 药物 筛选 与 计算 机 辅助 药物 设计 


9.3.1 药物 研发 的 基本 过 程 À 

新 药 发 现 和 研究 是 一 个 耗费 巨大 (在 美国 平均 每 个 药品 上 市 约 需 8 亿美 元 ) BRKO 
均 10~12 年 ) 的 过 程 。 目 前 世界 各 大 制药 企业 正在 试图 利用 新 技术 来 减少 新 药 开发 的 费用 
和 时 间 ,其 中 药物 基因 组 学 和 化 学 信息 学 是 这 些 新 技术 中 的 代表 。 图 9 -3 示 新 药 研 发 的 基 
本 流程 及 相关 的 药物 基因 组 研究 。 新 药 研发 分 以 下 儿 个 阶段 ; 


研发 阶段 化 合 物 数目 ЖАШ 。” ”日 标 药物 基因 组 研究 内 容 
44000 MM f w là rm ГЛЕН. 
"T | 发 现 或 鉴定 疾病 基 

rreg жатт 因 ， 用 做 新 药 靶 分 子 

— | 第 选 影 响 药物 结合 

t Fn gi fx 10000 鉴定 前 导 化 合 物 的 鞠 分 子 编码 区 SNP 
性 合 物 的 优 т 50 - ` 3* Tio ЖЕЛДЕТ 

T 2 动物 МИНИЙ 的 划分 子 编码 区 SN 

; sao ЕЛИНЕ RABAD, ЖИТ 


期 毒性 和 药 动 学 药物 基因 组 评价 


Ia: 在 受 试 人 群 中 进行 
有 效 性 、 药 动 学 、 副 
100-300 4 作用 的 先期 评价 利用 已 鉴定 的 影响 
ITb: 核 心 受 试 者 双 肯 法 靶 分 子 性 的 SNP 
与 安奈 剂 评价 有 效 性 ”评价 药物 反应 性 ， 
2 1000-5000 再 次 对 用 药 1 年 以 上 ”鉴定 药 先 反应 性 的 
HECERA SNP, WW AEH, 
试验 


临床 前 
(4-8%) 3 
ГЕЛ 
LI | 


导 找 兰 代 新 药 
ПШ 1 群体 BRATH, BY MARENE 
上 市 后 其 警惕 性 观 家 к ыр 
"TIT 药物 相互 作用 ， 
或 副作用 l 群体 。” 老 药 新 用 或 撤 市 ELE: 


图 9-3 苏 物 研发 过 程 及 相关 药物 基因 组 研究 


9.3.1.1 靶 分 子 的 鉴定 
目前 面市 的 药物 扣 分 子 共 500 种 左右 ,大 致 分 为 3 类 : 酶 . 受 体 ,循环 中 的 蛋 日 分 子 , 所 
ih EPA 9 4596 ,28 免 和 11%。 随 着 人 类 基因 组 计划 的 完成 ,新 基因 的 不 断 阐明 ,为 药物 
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WERDE Т BOE BEES РРА SPR AT T Z8 9 LRLRREZT 35 AER ЕЖ 
在 基因 组 水 平 进 行 研 究 , 有 助 于 多面 认识 药物 的 作用 机 制 。 
9.3.1.2 临床 前 期 研发 

前 导 化 合 物 (lead compound) 的 鉴定 是 新 药 研 发 中 的 关键 。 所 请 前 导 化 合 物 是 在 众多 
类 似 药 物 中 筛选 出 的 非常 具有 开发 潜力 的 化 合 物 。 这 需要 建立 在 全 面 的 药理 学 药 动 学 ) 
和 姆 理 学 研究 的 基础 上 。 此 阶段 药物 基因 给 学 的 研究 ,重点 针对 靶 基 因 编 码 区 的 SNP , LER 
那些 与 常见 的 影响 药物 反应 性 的 代谢 酶 或 受 体 多 态 性 具有 相互 作用 的 化 合 物 , 同 时 在 基因 
组 水 平 发 现 药物 的 副作用 。 临 床 前 期 主要 基 实 验 室 研究 和 动物 实验 。 人 临床 前 期 完成 后 , 需 
向 主管 部 门 申请 新 药 研 究 试验 。 

9.3.1.3 投放 市 场 前 的 痢 床 试验 | H LIES 

临床 工期 试验 主要 是 初步 在 健康 志愿 者 中 对 候选 药物 进行 药 动 党 和 毒 忻 试验 。 上 果 床 了 
期 又 分 全 a Mib, Ha 期 主要 是 先期 评价 药物 的 有 效 性 ,并 确定 药物 的 乎 均 剂 量 、 用 药 次 数 、 
副作用 等 。 通 常 分 2 ~3 种 剂量 ,将 病人 分 组 研究 ,每 组 约 50 人 。 此 期 可 同时 进行 靳 分 子 的 
基因 分 型 研究 ,观察 药物 遗传 性 状 。 卫 b 期 主要 基 有 效 性 的 确认 试验 。 遂 常 采 用 站 育 法 ,加 
安奈 剂 作对 照 。 同 时 根据 受 试 人 员 数 量 , 选 择 核 心 受 试 组 (pivotal tal) 。 正 期 临床 试验 主 
要 是 在 太 规 模 人 和 群 中 有 效 性 和 安全 性 的 评价 ,通常 采用 随机 分 组 的 双 育 试验 ,同时 评价 药物 
之 间 的 相互 作用 。 资 料 分 析 时 , 除 按 表 型 分 组 比较 外 ,还 需 按 基因 型 分 组 比较 ,并 尽量 考 厌 
各 种 混杂 因素 (confounder) 和 协同 变量 eo - variable ) 的 影响 。 

9.3.1.4 投放 市 场 后 的 下 期 

药物 经 过 临床 试验 后 ,向 药品 管理 局 申报 上 市 ,详细 前 明 药 物 的 有 效 性 和 安全 性 。 到 期 
研究 是 在 药物 投放 市 场 后 ,继续 对 药物 进行 评估 ,主要 针对 药 牧 的 成 本 收益 分 析 ( 药 先 流 行 
病 学 ) ,同时 基于 群体 的 药物 遗传 学 研究 ,有 助 于 进 НҢ 209 nop 55 SEC e tb > IT 
的 关系 。 此 期 也 需要 进 - . 步 观 察 药 物 之 间 的 相互 作用 ,并 利用 关联 分 酉 ,通过 长 期 观察 ,分 
析 与 药物 副作用 的 关系 或 发 现 药 物 的 其 他 药理 作用 。 一 旦 发 现 药物 新 的 严重 毒性 作用 , 则 
需要 性 虚 药物 撤 吊 市 场 。 

新 药 研 发 中 的 药物 基因 组 学 研究 ,也 涉及 到 许多 伦理 .道德 和 法 律 问 题 。 如 鞋 述 过 程 中 
涉及 的 动物 实验 和 和 人体 试 验 必 须 经 过 各 类 IRB (Institutional Review Board) 机 构 的 认可 。 临 
床 试 验 中 所 有 志愿 者 必须 填写 知情 同意 书 ,涉及 基因 型 分 析 和 有 关 疾 病 信 息 , 研 究 人 员 必 须 
遵守 保 密 原则 ,并 充分 尊重 志愿 玫 的 白 主 权 和 隐秘 权 .特别 注意 避免 "基因 上 技 视 ” 现象 和 利 
用 基因 型 分 析 用 于 医疗 保险 和 犯 证 。 各 个 国家 对 于 新 药 审批 都 有 一 套 严格 的 法 律 法 规制 度 ， 
没有 经 过 审批 的 药物 应 视 为 非法 药物 。 

前 面 已 经 提 到 ,新 药 研发 的 关键 是 发 现 前 导 化 合 移 。 前 异化 合 物 的 发 现 方法 有 多 种 。 
例如 :中 偶然 任 运 气 发 现 ,如 青霉素 的 发 现 。 罗 天 然 资 源 中 的 寻找 , 旭 大 窗 数 中 草药 的 发 现 。 
号 通过 研究 靶 分 子 一 一 代谢 酶 的 底 物 , 视 制 剂 、 活 性 中 心 等 ,发 现 潜在 的 药物 。 如 太 甸 数 底 
物 类 似 物 .竞争 性 抑制 剂 等 的 发 现 。 负 对 类 位 疾病 ,试用 相同 药物 。 如 革 兰 阳性 薯 感染 药 
物 。 咏 老 药 新 用 的 发 规 , 如 阿司匹林 的 抗 血 检 堪 成 作用 “伟哥 ”的 性 兴 硒 作用 的 发 现 等 。 
(药物 基 达 组 篇 查 :如 利用 多 种 肿瘤 细胞 栋 和 表达 芯 片 技术 进行 的 肿 痛 药物 的 迄 选 。 吕 药 
物 锚 定 ;利用 化 学 信息 学 方法 ,建立 药物 与 扣 分 手相 互 作用 的 模型 ,进行 大 规模 饰 查 , 确 定 药 
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本 章 主要 这 论 涉及 化 学 信息 学 内 容 的 最 后 两 种 途径 。 


9.3.2 药物 锚 定 方法 9 

传统 的 药物 研发 中 ,主要 依靠 对 天 然 存 在 的 生物 活性 物质 的 化 学 修饰 ,或 者 利用 “化 合 
物 库 "进行 高 通 量 筛 选 , 得 到 前 导 化 合 物 。 随 着 人 类 基因 组 数据 的 不 断 增加 ,药物 靶 分 子 数 
目 不 断 增多 ,这 些 方 法 的 使 用 则 受到 一 定 限制 。 近 年 来 , 随 着 结构 基因 组 学 的 发 展 ( 见 第 6 
章 ) ,许多 和 蛋 白质 的 三 维 结构 得 到 阐明 ,同时 其 配 笨 结合 部 位 也 已 清楚 ,一 - 些 恒 白 复合 体 中 
蛋 乌 亚 茜 之 间 的 相互 作用 也 己 崩 确 。 基 于 这 些 信息 ,可 将 某 些 化 学 小 分 子 锚 定 在 靶 向 蛋白 
质 的 结合 部 位 , 称 为 药 特 锚 定 ( drug anchoring 或 drug docking) 。 这 是 目前 新 药 研 发 中 必 不 
可 少 的 工具 。 

在 锯 选 前 导 化 合 物 过 程 中 ,需要 对 候选 化 合 物 进行 系统 研究 。 往 往 侧 重 候 选 化 合 物 和 
关 的 或 类 似 的 化 合 物 的 研究 ,通过 对 各 自 结 构 和 理化 特征 的 分 析 , 比较 其 特异 性 和 药理 作 
用 ,并 借助 计算 机 模拟 药物 与 地 分 子 的 相互 作用 和 统计 模型 移 建 立 ,进行 化 合 物 筛选 。 因 此 
可 以 看 出 ,药物 锚 定 中 的 关键 化 学 信息 学 方法 是 前 导 化合 物 类 似 物 的 簿 选 .药物 与 靶 分 子 相 
互 作用 预测 以 及 多 元 回归 分 析 。 

1) 前 导 化 合 物 类 似 物 的 第 选 主 要 借助 已 有 的 化 学 数据 库 如 World Drug Index LIGAND 
或 MDL 4E 349 H з (hup :Z/ www. mdli. com) ,对 其 中 的 化 合 物 进 行 分 类 筛选 。 常 用 的 饰 选 
方法 有 '” : 聚 类 法 (cluster - based) .分散 法 (partition — based) ,不 相似 性 法 ( dissimilarity — 
based) ,优选 法 (optimization - based) 。 课 类 法 利 分 散 法 分 别 根据 化 合 物 分 子 结构 或 物理 化 
学 特征 进行 分 组 ,在 每 组 中 挑选 一 个 代表 性 药物 进行 分 析 。 不 相似 性 法 则 相反 ,主要 按照 结 
构 上 的 完全 不 同性 原则 选择 化 合 物 。 优 选 法 也 是 在 对 化 合 物 差别 性 定量 分 析 基 础 上 ,进行 
筛选 。 

(2) 筛选 后 的 化 合 物 进一步 利用 化 合 物 结 构图 形 ,比较 同类 化 合 物 的 结构 异同 点 ,预测 
其 空间 结构 和 物理 化 学 特 竹 , 以 评价 筛选 的 效果 。 预 测 物 理化 学 转 性 的 方法 也 是 目前 化 学 
信息 学 的 重要 内 容 趾 。 这 主要 针对 药物 的 结构 特点 预测 其 药 动 学 特点 , 即 通常 所 谓 的 
ADME 特性 [吸收 (absorption) shti (distribution) ,代谢 { metabolism) „HENE ( excretion) J, Ж 
中 主要 是 对 药物 的 吸收 .渗透 性 (permeability ) ,可 溶性 (solubility ) 等 进行 预测 。 

(3) 在 获得 其 结构 信息 后 ,利用 前 导 化 合 物 与 鞠 分 子 相 互 作用 的 实验 数据 ,建立 相互 作 
用 模型 ,比较 其 类 似 物 相互 作用 的 方式 ,从 中 筛选 理想 的 化 合 物 。 

(4) 在 取得 相关 实验 数据 基础 土 ,对 分 子 特 征 和 药理 作用 的 关系 进行 分 析 。 这 是 20 tH 
# 60 年 代 由 C. Hansch 等 建立 的 定量 缚 构 与 禧 性 相关 性 分 析 ( qantitative structure — activity 
relationship ,QSAR) 方 法 。QSAR 分 析 还 与 药 效 学 或 药 动 学 研究 相 结 合 , 以 进一步 分 析 结 构 
类 似 物 的 药理 效应 。 例 如 在 可 的 松 药 物 的 研究 中 ,利用 QSPR 分 析 结 果 整 合 到 皮质 类 而 醇 
受 体 的 药 动 学 模型 ,来 分 析 脱 氧 皮 质 ( 淮 ) 醇 类 似 化 合 物 的 药理 作用 '”。 
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9.3.3 налам" 

计算 机 辅助 药物 设计 (computer — aided drug design,CaADD) 是 恨 据 靶 分 子 己 有 的 信息 原 
始 性 (im siieo) 设 计 与 丢 分 子 祖 下 作用 的 小 分 子 化 合 物 .而 药物 销 定 是 将 已 知 的 小 分 子 化 合 
物 , 借 助 计算 机 人 分析, 寻找 其 相互 作用 的 靶 分 子 , 两 者 的 研究 方向 相反 ,但 研究 具 的 相同 ,都 
在 于 发 现 前 导 北 合 物 。 形 象 地 说 ,CADD 如 同 手 上 有 -一 把 竺 开启 的 锁 , 适 要 锁 匠 配 一 把 能 打 
ЕВА CHEER АСЕНА?) 。 药 物 锚 定好 比赛 馆 服 务 员 手 上 有-- 把 钥匙 ,但 不 知 是 开 哪 个 房 


曾 的 ,需要 找到 可 打开 的 门 锁 ( 俗称 " 找 门 锁 ") 。 两 者 的 比较 见 图 9 -4。 以 下 阐述 CADD 
的 一 些 要 点 。 


计算 机 辅助 药物 设计 药物 锚 定 
基 码 组 数据 库 exeo SOON 
WU MEAT 化 学 数据 库 检 索 


结构 分 析 原始 性 乱 体 设计 ”类似 结构 化 合 物 
三 维 结构 模型 Ar T SRHI 分 子 模拟 ЕРА PF 


жашан WAARMAN шаю 。 。 和 分 子 结 构 分 析 
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配 体 依赖 性 药物 设计 
前 导 化 合 物 前 导 化 合 物 
9-4 计算 机 辅助 药物 设计 与 药物 锚 定 的 比较 


COAH NMR sË X -入 射 方法 已 阐明 了 许多 蛋白 质 的 空间 结构 ,并 储存 在 РОВ 数据 库 
中 http:AAwww. expasy. ch/spdby)。 上 月 前 PDB 已 有 超过 1.5 万 个 条 日 ,其 中 不 分 属于 元 村 
的 {redundancy), 参见 6.8.1 节 。 数 据 库 中 尚未 收录 的 靶 分 子 的 结构 ,可 以 根据 其 间 源 蛋白 
质 的 结构 来 设计 ,当然 ,所 得 到 的 化合 物 结构 的 准确 性 也 受 同 源 程 度 影 响 。 

(2) 由 于 SNP 或 突变 的 存在 ,可 影响 蛋 月 质 的 结构 ,合理 的 药物 设计 应 该 尽量 考虑 这 种 
多 态 性 对 药物 与 靶 分 子 结 会 的 影响 。 

[3 目前 依靠 实验 得 到 的 重 白 质 结构 仍然 有 限 , 计 算 机 辅助 结构 预测 (computer - aided 
structure prediction, CASP) 成 为 蛋白 质 结构 分 析 的 重要 手段 ( 参见 第 6 章 ) ,并 用 于 CADD。 

4) 又 分 子 与 配 体 的 相互 作用 方式 有 多 种 ,包括 氧 键 .离子 键 、. 疏 水 键 等 ,有 效 的 相互 作 
用 取决 于 配 体 与 靶 分 子 之 间 空 间 结构 的 互补 性 相互 作用 ,预测 时 需要 建立 准确 的 错 定 运算 
法 则 (docking algorithm) 。 设 计 的 药物 分 子 与 靶 分 子 的 亲和力 由 自由 能 (free energy) 决定， 
H d fed a on] SSS (enthalpy ) 108 ( entropy ) 的 变化 来 推算 。 

(5) ВОЖА CT (ар initio ) BET ЖИЙ BG BLUR DR ,同时 必须 符合 化 学 规则 。 这 种 装配 方 
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第 10 章 统计 生物 信息 学 


统计 生物 信息 学 (statistical bioinformaties) 是 生物 信息 学 与 咎 物 统 
计 学 (biostatistics) 的 一 门 交 丸 学 科 , 主 要 利用 统计 举 的 基本 理论 和 方 
法 解决 生物 信息 学 中 涉及 的 有 关 数 理 统 计 问题 ,如 概率 的 计算 НЕ 
传 学 .遗传 流行 病 学 .药物 基 央 组 学 .生物 芯片 数据 分 析 等 。 实 际 应 用 
中 ,在 掌握 基本 的 资料 分 布 基础 上 ,首先 提出 检验 假设 ;然后 将 数据 资 
料 进 行 合理 分 类 和 整理 ,建立 数据 文件 ;除非 是 很 简单 的 数据 分 析 用 手 
工 计算 外 ,基本 上 是 利用 统计 软件 ,根据 研究 者 的 实验 设计 和 研究 目 
的 ,选用 合适 的 统计 方法 进行 分 析 , 或 者 根据 研究 目的 ,建立 统计 分 析 
模型 再 运算 ;最 后 也 是 最 关键 的 步 又 是 对 统计 结果 进行 合理 的 解释 。 
本 章 仅 介绍 概率 论 与 统计 分 析 的 基本 方法 ,对 于 一 些 较 高 级 的 统计 方 
法 ,如 判别 分 析 ( 最 大 但 然 法 .见于 斯 法 ) 、 训 类 分 析 , 主 成 分 分 析 等 ,在 
第 7 章 有 关 基 因 芯片 数据 分 析 和 第 8 章 统 计 洁 传 方法 中 有 所 涉及 ,这 
里 不 殖 蒂 述 。 此 外 ,统计 和 牛 物 信息 学 中 的 常用 统计 表 , 如 标准 正 态 分 布 
曲线 下 的 面积 ,i 界 值 表 、x RERA F 界 值 表 等 因 限 于 篇 幅 , 本 书 未 
列 出 ,需要 时 请 读者 查阅 相关 的 统计 学 参考 书 。 


10.1 概率 论 基 础 由 
概率 (probability ,P) 是 用 来 表示 事件 А ( 如 某 种 遗传 病 ) 发 生 的 可 


能 性 , 即 在 = 次 重复 性 实验 中 ,发 生 A 的 次 数 n, 占 总 数 的 比例 ,用 公式 
表示 为 : 


Р(А) = M 


其 数值 在 0 ~1 之 问 。 当 概率 为 0 时 ,表示 该 事件 不 可 能 发 生 ; 当 
概率 为 1 时 ,表示 该 事件 必然 发 生 。 概 率 的 表示 方式 可 以 是 小 数 { 如 


V 
* 


EEG PG 


0.5) ,分数 (如 1/2) .百分数 (如 5096 ) 或 比 数 (如 11)。 当 概率 为 0.25 时 ,表示 发 生 的 可 
能 性 为 1/4( mk 2596 9, WA iN 3/4 (BD 35 和 的 可 能 性 不 发 生 : 概率 计算 中 有 几 个 基本 法 
则 ,如 可 法 法 则 ,乘法 法 则 和 互补 原则 。 

(1) 训 法 法 由 (law of addition) 如果 机 个 或 两 个 以 上 的 事件 是 相 半 排斥 的 ,事件 和 的 
发 生 概率 为 P. ,事件 B 的 发 生 概 率 为 P, , 则 出 现 和 或 B 的 概率 为 P+ P... PJN, TRIER 
男孩 的 概率 为 0.5， 是 女孩 的 概率 也 为 0.5, 不 可 能 同时 为 男 利 女 , AE JLE R kt 
率 等 于 ] 。 

(2)3& pci law of mutiplication) ” 当 两 个 或 两 个 以 上 事件 的 结果 是 独立 存在 或 可 以 
同时 发 生 时 ,事件 A 的 发 生 概率 为 P, ,事件 B 的 发 生 概 率 为 P, WEE A 和 了 的 概率 为 己 
x P,。 例 如 一 对 夫妇 生 第 一 个 小 孩 为 男孩 的 慨 率 为 1/2, 生 第 二 个 小 护 为 男 核 的 概率 也 是 
1/2, 那么 该 夫妇 生育 两 个 小 孩 都 是 男性 的 概率 为 1/2 x 1/2 =174。 

(3) 互补 原则 (mule of complement) ”如 果 某 事件 EE 发 生 的 概率 为 P( E) , 则 不 发 生 的 概 
率 为 P(E), 则 P(E) + P(E) =1, 只 要 知道 其 中 之 一 , 便 可 推算 出 另 - -个 概率 ， 

条 件 概 率 ( conditional probability ) 是 概率 论 中 常用 的 一 个 概念 ,是 指 某 样本 空间 (sample 
space) PRAE E AF, ÉE 发 生 的 前 提 下 ,再 发 生 下 的 概率 , 记 作 PICIE), 条件 概 率 
的 概念 是 著名 的 贝 叶 斯 (Bayes) 定 理 的 分 析 基 础 ,分别 在 8.4.1 种 8.7.1 节 中 已 作 描 述 ,这 
是 统计 分 析 和 遗传 风险 分 析 中 的 常用 算法 。 


10.1.1 ВЕ 

变量 (variable) Г E 8) FR DL Fed a PRG КЕШ ЕЙ НН КЕ 24 CHI ЕТЕР 
特征 时 ,通常 建立 一 个 数字 模型 进行 表达 。 例 如 , 某 种 特定 组 织 中 某 个 基因 mRNA 的 表达 
Bk :个 变量 。 数 值 反 映 转 录 水 平 的 强度 。 一 定 条 件 下 产生 相同 表达 量 mRNA 的 基因 
赋值 相同 。 

统计 学 变量 主要 分 两 类 :定性 或 定量 变量 。 定 量变 量 进一步 可 区 分 为 连续 变量 (eontin- 
uous variahley 利 离散 变量 (diserete variable) 。 连 续 随 机 变量 可 以 是 某 区 间 内 任何 实数 。 例 
如 ,基因 表达 水 平 便 是 个 连续 随机 变量 。 由 连续 随机 变 基 所 得 到 的 数据 称 为 连续 性 数据 。 
离散 变 基 通常 是 测量 或 计数 中 可 定 的 整数 值 。 例 如 ОМА 微 阵 列 圭 基因 的 数目 就 是 一 个 离 
icd RE ,其 反 值 为 于 整 数 。 随 机 离散 变量 所 代表 的 数据 称 为 离散 数据 。 


10.1.2 概率 分 布 函数 和 频数 分 布 ” 

概率 分 布 (probability distribution) 是 用 来 措 述 随机 变量 与 概率 发 生 之 问 的 关系 ,通常 用 
表情 .图 形 或 冰 数 来 表示 。 概 率 分 布 主要 分 离散 变量 分 布 和 连续 变量 分 布 两 大 类 。 常 见 的 
离散 分 布 和 包括 超 几 何 和 分 布 (hypergeometric distribution) , — Hi 1 fp ( binomial distribution) „ЎН 
松 和 分 布 ( Poisson distribution) .帕斯卡 分 布 (Pascal distribution) 等 。 常 见 的 连续 分 布 包 括 户 分 
"fg ( beta distribution) „у ЭТАП ( gamma distribution) , x (сы — square distribution) t — rd 
(1 distribution) ,F - ^r p (F distribution ) ЖИЕ ЖАТАН ( normal distribution) 。 统 计 学 分 析 中 ， 
首先 是 要 确定 数据 的 分 布 类 型 ,然后 进行 参数 估计 和 假 商 检验。 这 里 将 不 对 各 分 布 晃 数 肥 
其 主要 参数 ,如 均 数 和 方差 的 计算 展开 讨论 。 统 计 方 法 中 涉及 有 关 分 布 时 再 分 别论 述 。 有 
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0, 
关 标 准 正 态 分 布 ( 即 Z 分 布 ) 曲 线 下 面积 (概率 ) 的 计算 方法 参见 7.4.2 节 。 Ж 
在 计数 资料 分 析 中 , 常 涉 及 频数 分 布 的 概念 。 它 是 用 来 统计 每 个 变量 值 所 处 的 区 域 ,从 
而 将 资料 进行 收集 整理 的 方法 。 表 10 - 1 是 100 个 基因 用 cDNA 微 阵列 检测 所 得 到 的 结 
困 。 初 步 看 米 , 很 难得 到 这 些 数据 的 简明 结果 。 需 要 进一步 加 以 整理 成 更 紧凑 的 形式 并 能 
说 明 - - 些 问 题 。 这 便 是 频数 分 布 的 由 来 。 


310-1 cDNA 微 阵列 测定 100 个 基因 表达 的 强度 


Селе Intensity Gene Intensity 
genel 83.7 gene36 5.8 
gene2 ll.1 gene37 259. 8 
gene3 327.6 gene38 110.4 
gened 86.2 gene39 60.9 
genes 33 genedü 100. 3 
genet H75. 1 gene] 33.8 
gene? 110.6 gened2 238.5 
geneg 652.4 gened3 52.3 
gene9 363.3 gene44 277.6 
репе10 16 gened5 368.3 
gencil 975.7 gene46 419.9 
genel2 748.3 genet? 12.2 
genel3 98 gened8 206 
genel4 28 gene49 20 
genel5 155.8 gene50 129.4 
genel6 73.2 gene51 90.7 
репе17 44.9 репе52 596.7 
genel8 32.7 gene53 331.3 
вепе19 183 gene54 52.6 
gene20 144.6 gene55 141. 3 
gene2] 29.1 gene56 170.3 
gene22 53 gene57 9.8 
gene23 582.1 pene58 669.7 
gene24 75.7 gene59 251.3 
gene25 442.6 geneti) 200.3 
gene26 11.7 репеб1 31.8 
gcne27 320.2 репеб2 887.6 
репе2& 428.9 geneó3 54 
gene29 363. 7 geneó4 24 
gene30 603.4 gene65 192.4 
gene31 72.2 репебб 961.8 
gene12 34 вепеб? 445. f 
gene33 471.5 genc68 152.1 
gene34 320.6 geneao 7.9 
Bene 28.3 gcne?0 889,4 


W, ALAA Einann tin y eee A ra eme тел шл ерш maaa aaraa aii e з =° . Æ E EN 学 SN 


Ж 续 表 10-1 


Intensity Intensily 
^ —— gene?] 713.4 gene86 —— — 17.2 
gene72 718.7 gene87 474.9 
gcne73 549.8 genes 43,3 
gene74 296.3 zenet 394.6 
gene75 331.9 gene90 369.6 
gene76 105.2 grenedl 373 
кепе77 96.7 genc92 17.8 
genc78 703. 5 zene03 305.2 
gene i9 84.9 Eenc94 602.4 
genes 598,2 gene95 516.9 
gemnce81 369.9 репеоб 39.7 
gene8B82 99.4 genet? 115.8 
genesi 155.2 gene98 102.2 
gened 61.4 genego 159.9 


genes 603. 1 | gene lk) 25 


连续 资料 的 频数 分 布 可 以 用 不 同 的 方式 来 表示 ,如 频数 表 .直方 图 (histogram) 等 。 这 种 
图 表 的 制作 通常 是 用 计算 山 来 完成 。 几 户 必 须 清楚 了 解 其 原理 并 懂得 如 何 解析 其 结果 。 表 
10 -2 是 根据 表 10 - 1 绘制 的 频数 分 布 表 。 间 隔 宽度 设置 为 100 ,读者 不 难 理解 表 中 各 列 的 
计算 方法 和 所 代表 的 意义 。 经 过 表 10 -2 的 处 理 , 原 前 数据 得 到 压缩 而 且 可 说 明 一 些 问题 。 
如 果 观 察 第 (1) 和 第 (4) 列 ,可 以 很 容易 发 现 这 100 个 基因 所 聚集 的 强度 范围 。 第 (6) 列 的 
累积 相对 频率 中 ,可 看 出 某 一 位 目 上 下 观察 数目 的 多 少 ,如 超过 半数 的 基因 的 表达 强度 在 


200 以 下 。 
表 10 -2 BUR 10 -1 基因 表达 数据 绘制 的 频数 分 布 表 
(1) (2) (3) (4) (5) (6) 
间隔 中 点 频数 相对 频率 。 累积 极 频率 。 累积 相对 频率 
1~100 3Ü 40 40% 40 40% 
101 ~ 200 150 16 16% 56 56% 
201 — 300 250 6 6% 62 62% 
301 ~ 400 350 13 3% 75 799 
401 ~ 500 450 5 6% 81 81% 
501 ~ 600 550 3 5% 86 86% 
601 ~ 700 650 5 5% 91 91% 
701 ~ 800 750 5 556 96 96% 
801 ~ 900 850 p 2% 98 95% 
901 1 000 050 2 2% 100 100% 


用 和 作 图 法 来 表示 频数 分 布 信 息 量 很 天。 例如 将 表 10 -1 和 表 10 -2 中 的 数据 用 直方 图 
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表示 , 见 图 10 -1。 横 轴 表 示 基 因 表 达 强 度 , 纵 轴 表示 以 100 为 间隔 宽度 统计 所 得 频数 。 这 
种 图 形 较 表 10-2 EW, 
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10-1 过 10 -1 数据 的 直方 案 


10.1.3 总 体 与 抽样 分 布 
生物 学 研究 中 , 常 面 临 不 同 的 研究 对 象 , 这 个 研究 对 象 所 代表 的 全 部 信息 , 称 为 -- 个 总 
体 (population) 。 许 多 生物 信息 处 理 中 ,我 们 不 可 能 对 总 体 中 所 有 个 体 逐 个 检测 ,-: 般 是 随 
机 抽取 总 体 中 的 一 些 样 本 (sample) 进行 检查 ,又 称 抽 样 ( sampling). 上面 有 关 频 数 分 布 主 
EHBYRSURUE REM, TAEDE HT ,需要 通过 从 总 体 中 抽样 得 到 的 资料 进行 推断 。 
这 种 过 程 常 会 有 一 定 程度 的 误差 ,又 称 抽样 误差 (sampling error) 。 统 计 分 析 中 ,必须 了 解 这 
种 锥 论 中 的 确定 性 和 不 确定 性 因素 ,这 仍然 涉及 梳 率 的 问题 。 
我 们 先 来 看 一 个 DNA 序列 分 析 的 例子 。 假 如 我 们 有 下 列 两 种 分 别 来 自 不 同 物种 的 序 
列 ,下划线 代表 相同 核 背 酸 。 
GTCTGTGGGCAATACGGATCCGTCAA 
GACATTATGGATTTCTGTAGCGATAT 
现在 我 们 想 知 道 这 两 种 序列 是 否 具有 明显 的 相似 性 , 妈 预 测 它们 是 否 具有 共同 的 祖先 ，。 
如 果 这 两 个 序列 是 由 4 PREA, T, GCO 随机 得 到 的 序列 ,其 相似 性 应 该 接近 174. ЕЗ 
例子 26 个 碱 其 中 ,我 们 可 预期 得 到 6 个 相同 的 碱 基 ,但 事实 上 已 经 发 现 11 个 相同 碱 基 。 这 
种 结果 是 否 由 于 随机 产生 的 ? 其 可 能 性 第 要 用 概率 不 理 来 分 析 。 如 果 因 随机 产生 的 序列 打 
概率 很 低 ,可 认为 其 他 因素 在 起 作用 , 即 两 者 可 能 来 月 同一 共同 祖先 。 
抽样 分 布 (sampling distribution) 属于 概率 分 布 的 范 上 畴 ,是 通过 对 抽样 所 得 到 的 样本 的 分 
布 进行 表述 的 方式 。 统 计 分 析 中 ,需要 推断 这 种 抽样 分 布 的 基本 参数 ,如 均 数 ,标准 差 和 置 
信 限 等 ( 详 风 10.2 节 ) ,从 而 判断 抽样 误 差 的 太 小 ,得 到 这 种 抽样 所 得 到 的 样本 是 天 完全 来 
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源 于 同一 总 体 或 总 体 的 结论 。 


10.2 统计 学 基本 概念 


上 刷 提 到 的 有 闫 总体, 样本 .变量 ,频数 分 布 和 抽样 分 布 的 概念 十 统计 学 的 基本 概念 。 
其 中 ,频数 分 布 将 数据 简化 成 更 紧凑 的 形式 , 基 描 述 性 统计 学 的 一 种 ,用 于 描述 数据 分 布 的 
特征 和 提供 一 种 简单 的 总 结 数据 ,阐明 典型 观察 值 分 布 和 集中 趋势 。 同 时 也 有 扩 上 蜡 数据 分 布 
的 变异 性 和 分 散 性 。 描 述 性 统计 学 中 常用 均 数 和 方差 来 分 别 代 表 集 中 趋势 和 离散 趋势 的 指 
bk, X SORIA ÉL point estimation) 。 置 信 区 间 ( confidence interval) JE [X [E] fé iT ( inter- 
val estimation } 四 的 主要 指标 ,主要 利用 抽样 分 布 估计 总 体 均 数 的 概率 范围 。 一 般 而 言 ,统计 
学 分 析 和 包括 两 大 基本 方法 :数字 分 析 和 图 形 分 析 。 图 形 分 析 最 适用 于 鉴定 数据 的 表现 增 式 ， 
而 数字 分 析 旧 精确 和 客观 。 这 两 者 互 为 补充 且 都 必需 。 检 验 假设 (hypothesis testing, З Н 
表示 }) 是 统计 推断 (inference ) 的 重要 方面 。 假 设 检验 又 称 显著 性 检验 (significance test) ,是 
先 对 总 体 特征 和 作出 某 种 假设 ,然后 从 总 体 中 抽样 ,计算 相关 统计 量 ( statistic) ,再 根据 检验 结 
果 作 出 拒绝 或 接受 假设 的 判断 。 假 设 检 验 分 参数 检验 (parametric test) 和 非 参数 检验 (non 
- parametric testy 两 大 类 。10.3 节 中 将 主要 阐述 常用 的 参数 检验 方法 。 


10.2.1 均 数 与 方差 
10.2.1.1 平均 数 
最 常用 于 表示 集中 趋势 的 指标 是 算术 平均 数 (arithmetic average) 或 简称 平均 数 ( mean) 


或 均 数 。 对 于 未 分 组 资料 ,平均 数 是 将 所 有 数值 相 如 再 除 以 数值 的 个 数 。 例 如 , 现 有 以 下 8 
个 观察 值 : 


8.57 179 5 20 19 (数组 A) 
其 平均 数 的 计算 方法 为 : | 
平均 数 -8 +5 +7 +17 n +5 — m — 11.25 


平均 数 的 遂 用 计算 公式 中 ,通常 须 区 分 为 总 体 平均 数 (p) ЕНЕ З ВХ), ЗЕ 
均 数 是 整个 总 体 所 有 数 慎 的 平均 数 。 样 本 平均 数 是 总 体 抽 样 所 得 到 样本 的 平均 数 。 分 别 表 
ZH F: 


_ : A _ 


(公式 10-2) 
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总 体 平均 数 和 样本 平均 数 概 念 的 区 分 对 于 下 文 将 更 叙述 的 统计 推断 非常 重要 ,其 结论 
通常 是 根据 所 观察 的 样本 来 对 总 体 进行 估计 。 

10.2.1.2 样式 

样式 (mode) 一 河源 于 法 语 ,表示 时 尚 (fashion) 的 含义 ,在 统计 学 中 用 来 表示 数据 集 
( dataset) 中 最 常见 的 数据 。 例 如 , 表 10 -2 或 图 10 -1 中 ,100 个 基因 表达 值 具有 明显 聚集 
在 低 表 达 水 平 (4 «100 单位 ) 的 特征 。 集 中 趋势 的 反映 可 用 某 个 最 常 出 现 的 数值 来 度量 。 当 
面 对 某 些 按 区 间 分 组 的 资料 时 ,样式 常用 频数 最 高 组 的 区 间 中 点 来 表示 。 例 如 囊 10 -2 rp, 
样式 的 表示 是 取 0 ~100 组 的 中 点 50 来 表示 。 最 简便 的 样式 计算 方法 是 通过 直方 图 来 计 
算 。 

10.2.1.3 Ф 

中 位 数 (median) 是 将 数据 集 由 小 到 大 排列 后 所 得 到 的 中 则 位 置 的 数值 ,例如 将 上 文平 
岁数 中 的 一 组 8 个 数据 按 由 小 到 大 次 序 排列 ,结果 如 下 ; 


5 57 š 9 17 19 20 (数组 B) 
其 中 ,“8” 和 “9” 位 丁 排序 的 最 中 亲 位 置 , 因 此 中 位 数 表示 为 ; 
中 位 数 2839 s.s 


中 位 数 也 可 理解 为 小 于 数据 集中 和 名 数据 但 又 大 于 数据 集中 另外 50% 数据 的 那个 数 

fü . 
平均 数 .样式 和 中 位 数 都 是 用 来 描述 资料 的 集中 趋势 ,它们 之 问 也 存在 相互 联系 。 对 于 

一 种 分 布 对 称 的 资料 ,这 三 者 是 相同 的 。 如 果 是 非 对 称 分 布 资料 ,中 位 数 总 是 介 于 平均 数 和 
样式 之 间 。 对 于 向 右 玛 斜 的 资料 ,平均 数 最 大 ,样式 最 小 ;对 于 向 左下 和 斜 的 资料 , 则 平均 数 最 
小 ,样式 最 大。 

一 个 很 自然 的 疝 题 是 ,为 什么 需要 使 用 中 位 数 和 样式 来 代替 平均 数 ? 我 们 来 看 . :个 两 
张 cDNA 微 阵列 片 所 得 到 的 数据 标准 化 的 例子 。 通 常 在 比较 两 张 片子 的 表达 差异 前 ,需要 
进行 资料 的 调整 。 如 果 两 张 片子 的 数据 呈 线 性 相关 ,通常 可 用 平均 数 或 中 位 数 来 获得 资料 
的 集中 趋势 并 进行 各 数据 的 标准 化 ,但 多 数学 者 主张 利用 中 位 数 进行 标准 化 。 这 是 因为 -- 
组 非常 大 的 mRNA 表达 强度 的 数据 通常 是 向 左 生 斜 的 , 仅 少 数 属 于 高 表达 。 如 果 所 有 基因 
的 表达 数据 中 ,存在 一 些 高 表达 或 内 忒 尘 污染 导致 的 假 高 表达 ,对 平均 数 的 影响 就 较 大 。 相 
F ,中 伺 数 由 于 是 接 次 序 排 列 得 到 ,所 受到 的 噪音 或 极端 值 的 影响 就 较 小 ,或 较 不 敏感 。 

10.2.1.4 方差 

集中 趋势 的 度量 并 不 能 反映 数据 分 布 的 整个 情 沉 。 具 有 相同 均 数 的 两 组 数据 ,其 离散 
程度 可 完 侈 不同。 为 了 更 好 地 反映 资料 的 分 布 情况 ,需要 描述 资料 的 变异 ( variation ) 或 离 
Hi (dispersion) 。 最 简单 的 变异 忻 度 景 方法 是 范围 (range) , 即 资 料 的 最 小 值 和 最 大 慎之 差 。 
例如 ,数组 B 中 ,其 范围 为 20 -5 =15。 范 围 越 大 ,表明 其 变异 性 越 大 。 范 国 的 概念 非常 容 
易 理 解 和 计算 ,但 没有 考虑 各 数值 或 观察 值 之 间 的 美 异 性 。 先 看 让 面 的 一 组 资料 : 


5 9 10 11 11 12 12 20 {数组 C) 
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这 组 资料 的 范围 数组 B 的 范围 完全 相间 , 即 都 等 于 15 ,但 很 明显 的 是 ,数组 C 的 变异 性 
要 比 数组 B 小 。 范 围 为 15 并 不 能 反映 两 组 数据 的 变异 性 ,因此 ,需要 新 的 指标 来 衡量 。 

最 常用 于 衡量 离散 程度 的 指标 是 方差 (variance，Var) 太 其 平方 根 一 一 标准 差 ( standard 
deviation ,SD)。 其 含义 是 指 资料 围绕 均 数 的 平均 伸展 。 数 组 的 变异 越 大 ,与 均 数 之 间 的 差 
值 ( 简称 离 均 差 ) 越 大 。 因 此 ,变异 的 度量 可 用 这 些 离 均 差 的 平均 数 来 表示 , 即 : 


XX, = X) 
=— (公式 10 -3) 
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可 以 看 出 ,公式 10 -3 的 结果 总 是 为 零 , 这 不 能 由 于 比较 两 个 数组 的 变异 性 。 解 决 这 一 
问题 的 方法 是 计算 离 均 差 的 平方 ,再 求 剖 和 ,然后 计算 平均 数 , 即 按 公式 10 -4 表述 。 
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@ = oC (公式 10 -4) 
式 10 -4 是 表示 总 体 方差 的 公式 ,如 果 是 样本 方差 ,其 计算 公式 有 所 不 同 。 即 : 


(X; -XY 
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— (公式 10 -5) 
值得 注意 的 是 ,公式 10 -5 中 ,如 果 分 母 采用 来 计算 ,所 得 到 的 样本 方差 较 总 体 方差 
偏 低 。 校 正方 法 是 使 分 母 采用 (mn - 1) 。 此 外 ,用 公式 10 -5 来 估计 总 体 方差 时 ,总 体 大 小 站 
必须 假定 为 无 限 大 , 才 可 能 不 出 现 偏差 。 实 际 应 用 中 六 至 少 应 该 为 样本 = 的 50 售 以 上 。 
由 于 方差 采用 了 离 均 差 的 平方 ,如 果 对 方差 进行 开平 方 来 度量 变异 性 ,这 种 转换 后 所 得 
到 的 结果 就 是 标准 差 的 计算 方法 。 用 数学 表达 式 , 即 根据 公式 10 -4 和 10 -5 分 别 得 到 总 
休 标 准 差 和 样本 标准 差 的 计算 公式 ; 


(公式 10 -6) 


《公式 10-7) 


标准 差 又 锌 黎 为 均 方 (mean square) 的 平方 根 。 
标准 差 的 计算 举例 中 ,我 们 继续 来 看 数 给 В 和 数组 C。 根 据 公 式 得 到 数组 B 和 数组 C 
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的 均 数 相同 ,如 ; 
X=11.25 


数组 B 的 标准 差 根 据 公 式 10 -7 ,计算 结果 为 : 


5 了 0 
с JS 11.25)" + +09 1.25) + (20 -11.257 _ 2.5 6м 


而 数组 C 的 标准 差 的 计算 结 采 为 : 


(5-11.25¥ 4-- +(12 - 11.25” «(20-11.25) 23.5 
s= -L | k л ATA 


通过 以 上 计算 ,很 居然 ,数组 B 的 变异 大 于 数组 C, 尽 管 两 者 的 均 数 相 辐 。 

10.2.1.5 变异 系数 

生物 学 研究 中 ,经 常 遇 到 的 一 类 问题 是 比较 度量 (scale) 的 莽 别 。 例 如 ,再 要 比较 两 种 
不 同 的 高 通 量 RNA 表达 谱 ( 如 cDNA 与 高 密 庶 寡 核 苷 酸 徽 阵列 ) 检测 技术 的 可 靠 性 ,我 们 选 
定 爱 试 组 中 某 种 具有 较 高 表达 水 平 的 基因 GI 来 评估 这 两 种 技术 。 分 别 利用 每 一 种 技术 在 
相同 条 件 下 重复 测定 mRNA 表达 量 多 次 。 用 在 技术 测定 时 得 刘 的 均 数 和 标准 差分 别 为 150 
和 25 ,而 用 В 技术 所 得 到 的 对 应 结果 为 590 和 70。A 技术 的 标准 差 较 B 按 术 小 ,我 们 可 能 
会 得 到 技术 A 优 于 技术 В 的 错误 结论 。 

这 种 铺 误 的 产生 是 由 于 忽视 了 表达 强度 的 不 等 分 布 , 向 仅 依 赖 标准 差 的 绝对 秆 作出 结 
论 。 为 了 避免 这 种 错误 的 发 生 , 引 人 和 人 变异 系数 ({eoefEiciency of variance, CW) 的 概念 , 较 标准 
差 更 好 平均 技术 的 优 劣 : 


根据 此 公式 重新 计算 下 面 例子 中 的 结果 ,A 技术 的 CV 28 17% ,B BER ZA 1296 , BGB] В 
BRE ARREU, 


10.2.2 SHE IB 
Ei 10.1.3 节 中 已 经 介绍 了 总 体 和 抽样 分 布 的 概念 ,这 里 继续 讨论 与 之 相关 的 统计 学 
概念 。 总 体 参 数 总 是 常数 ,而 且 只 有 一 个 这 样 的 总 体 均 数 俏 六 ,但 样本 均 数 可 有 宠 个。 从 总 
体 中 抽取 不 同 大 小 的 不 同样 本 时 ,可 得 到 不 同 的 样本 均 数 六 。 这 个 样本 均 数 属于 随机 变量 ， 
内 为 总 体 中 每 个 成 员 具 有 相等 的 机 会 被 抽取 到 样本 中 。 例 如 ,具有 (1, 2, 3, 4, 5) 5 
个 样本 的 总 体 ,其 均 数 所 为 3.00, 标 准 差 er 为 .58。 若 从 该 总 体 中 随机 抽取 3 个 样本 (不 
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置换 ) , 则 可 按 下 面 的 组 合 公式 计算 出 10 种 不 同 的 样本 类 型 : 


5 5! 4 
кмш "(i5 (5-53173:2.17 0 


其 组 合 方式 和 相应 的 均 数 值 列 于 表 10 -3。 从 中 可 以 看 出 ,样本 均 数 在 2.00 - 4.00 之 
间 变 化 。 


3410-3 样本 大 小 等 于 3 时 所 有 可 能 的 样本 各 均 数 


总 性 总 体 参 数 样本 HEHA 
1,2,3,4,5 БИ =3.00 5, =1,2, 3 2.00 
标准 差 =1. 58 5„=1,2,4 2.33 
©, 21,2,5 2.67 
5,=1,3,‚4 2.67 
8, =1,3,5 3.00 
Se =1, 4,5 3.33 
$,-2,3,4 3. 00 
$,22,3,5 3.33 
S, =2, 4,5 3.67 
$,23,4.5 4.00 
平均 样本 均 数 3.00 
样本 均 数 标准 差 0.61 


抽样 分 布 的 均 数 就 是 所 有 样本 均 数 XI) 的 平均 数 ( 即 平均 样本 询 数 ) ,用 us о A 
总 体 中 包括 所 有 可 能 的 抽样 类 型 时 ,其 数值 总 是 等 于 航 体 肉 数 (由 ) ,这 一 点 可 以 从 表 10 -3 
中 看 出 , 即 总 体 均 数 和 平均 样本 均 数 都 等 于 3.00。 但 样本 均 数 的 标准 差 ( 用 or Ж) Ж 
间 于 总 体 的 标准 差 (o) ,如 表 10 -3 中 ,这 两 个 数值 分 别 为 0.61 各 1.58。 也 就 是 说 ,抽样 分 
布 的 方差 小 于 其 总 体 ,这 是 抽样 分 布 的 重要 特征 , 即 中 央 极 限定 理 (central limit theorem) 。 

如 果 变 量 x 来 自 均 数 为 点, 标准 莽 为 o 的 总 体 ,其 抽样 分 布 的 均 数 为 ,随机 样本 数目 
为 4, 则 抽样 分 布 的 均 数 ji; 逢 标准 差 gq; 分 别 表示 为 : 


pa = 上 和 = 二 


Jn 


而 且 当 样本 大 小 足够 大 时 ,抽样 分 布 符合 正 态 分 布 。 

抽样 分 布 及 中 央 极 限定 理 的 重要 性 在 于 抽样 所 得 到 的 样本 对 总 体 进行 推断 ,因为 许多 
情况 下 ,无 法 对 总 体 的 所 有 样本 进行 观察 。 这 种 推断 包括 两 方面 的 内 容 :… 一 是 对 总 体 参 数 的 
直 楼 估计 ,这 需要 观察 样本 能 大 致 代表 真实 的 总 体 特征 ,如 对 总 体 均 数 的 区 间 估 计 (interral 
estimation) ;二 是 观察 样本 是 否 支持 对 总 体 的 先 验 假设 (a priori. hypothesis) , 即 假设 检验 (hy- 
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pothesis testing) , 3X H pb ie РНИ БКО В RE Р 5E ES 
{hiiti estimation) АЖ HES BB BS HS ELE b DAC ACCES ,包括 点 值 估 让 和 
区 个 估计 丙种。 点 值 知 计 是 根据 样本 的 统计 资料 而 对 总 体 参数 的 估计 。 例 如 通过 样本 均 数 
СХ) 对 总 体 均 数 (j) 的 估计 。 区 间 佰 计 有 所 不 同 , 不 是 直接 带 定 某 个 单 -: 数 值 ,而 是 力 绕 村 
一 点 值 的 大 致 区 间 的 概率 性 描述 ,该 区 间 包 含 总 体 套数 在 内 ， 
由 于 样本 大 小 不 同 , 区 向 估计 方法 可 有 不 同 。 当 样本 大 小 为 30 或 更 大 时 ,可 根据 自 态 
分 布 ,利用 样本 均 数 来 计算 正 态 均 数 的 置信 区 同 (eonfidenee interval, C1) ,区间 的 两 个 端 值 
S EU SB confidence limit, CL)。 其 表达 式 为 ; 
t = X +20; (О o ПЕ) 
p= X +2, ( ` = ЖАШЫ) 


oal en, 5 
其 中 ,os P sz a 


z ЇН Ар ЁЛЕ: SARER. Aan, ЖД 95% а АРСИ, 2 — 1.96, НЕ 
态 分 布 中 9596 的 观察 值 落 在 上 1.96 ИЕЭ РЕ" ру. ЖАК Н ЖЕЛЕУ: 


(s, -1.96, ) <a < (5, +1.96, ) (公式 10 -8) 


当 样 本 大 小 小 于 30 时 ,如 果 扫 样 分 布 仍然 符合 正 态 分 布 , 何 量 总体 的 标准 差 ( 醋 } 已 施 
时 , 仍 按 上 面 公式 10 -8 的 正 态 分 布 方法 进行 估计 。 否 则 , 须 用 :分布 代 替 正 态 分 布 用 于 对 
总 体 艾 数 (j) 的 置信 区 间 估 计 , 其 表达 式 为 : 


= X + t; Hus: = 一 
үл 


Ji 值 由 自由 度 {degree of freedom, d) (п -1 时 的 : 值 表 中 得 到 。 


10.2.3 假设 检验 

土 节 中 我 们 讨论 了 如 何 利用 样本 的 统计 资料 帮助 我 们 对 总 体 参 数 进行 估计 的 概念 。 接 
下 来 需要 讨论 的 是 利用 假设 检验 进行 统计 推断 的 问 秆 , 即 利用 对 桩 木 的 统计 分 析 来 支持 某 
个 关于 总 体 参 数 的 先 验 假设 。 遂 过 观察 样本 来 测试 这 种 假设 是 否 为 真 的 可 能 性 。 从 概率 论 
前 度 分 析 , 如果 这 种 可 能 性 不 能 维持 , 则 另 一 种 相对 的 假设 被 认为 是 真 。 这 两 类 假设 分 别称 
YERUR C null hypothesis, Hà Ul £& fe ff it {alternative hypothesis, Н, ). AA Bui Ze d 
总 体 参 数 假 定 为 真 , 除 非 其 被 证 实 为 假 ; 而 备 择 假 设 是 当 无 获 假 设 不 成 立时 对 总 体 参 数 假定 
为 真 。 根 据 这 种 定义 ,假设 检验 最 常用 的 方法 是 建立 一 套 关 于 参数 真 值 的 相互 排斥 的 假设 ， 
面 样本 统计 就 是 用 来 支持 这 两 种 假设 之 一 。 

以 下 通过 一 个 基因 表达 的 例子 来 说 明和 假设 检验 。 在 一 个 基因 表达 实验 中 ,基因 表达 的 
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变化 通常 分 为 以 下 儿 种 情形 : 

(1) 在 实验 条 件 下 ,基因 表达 未 发 生变 化 ,三 sp; 

(2) 在 实验 条 人 忻 下 ,基因 表达 上 调 ,X > 

(3) 在 实验 条 件 下 ,基因 表达 下 调 ,X <р, 

BREH G 的 表达 与 肿瘤 有 关 ,利用 一 种 叫做 已 的 化 合 物 处 理 后 ,分别 而 定 5 次 。 基 
因 表 达 的 平均 数 为 131。 已 知 未 进行 总 处 理 时 基因 表达 水 平 的 均 数 为 110 ,标准 差 为 12。 
那么 ,该 化 合 物 处 理 后 G 的 表达 是 否 上 调 ? 

这 个 例子 中 ,我 们 注意 到 经 化 合 牺 处 理 后 基因 G1 的 表达 较 末 处 理 时 高 。 问 题 基 这 种 
变化 是 否 具有 生物 学 疙 义 , 还 是 因为 随机 因素 的 影响 ? 这 种 情况 下 ,有 以 下 两 种 假设 :DD 无 
效 假 设 ( Hu) ;处理 样 品 的 平均 基因 表达 水 平 小 于 或 等 于 未 处 理 样品 的 基因 表达 水 平 , 即 
Н.Х; ОЗН, ) :处 理 样 此 的 平均 基因 表达 水 平 高 于 未 处 理 样 品 的 基因 表达 水 
平 , 即 H :X >u 

这 两 个 傻 设 包含 所 有 的 可 能 性 。 数 值 预期 出 现在 分 布 的 右 俩 ( 单 便 检 验 )。 和 根据 样 本 
分 布 定理 ,样本 均 数 呈正 态 分 布 ,因此 可 用 正 态 分 布 进行 假设 检验 。 已 知 : 

n = 5,Х =121,д= 110,0 = 12 

XP X ЖЕГЕ (тем statisic) z 的 计算 方法 如 下 : 


z=% (AR 10 -9) 


Án 


121-110 _ 11 

则 757713. 55.37 

45 

根据 统计 学 书 中 的 标准 正 态 分 布 表 , 可 以 看 出 z 值 的 变化 显著 性 水 平 为 :a = 0.01 和 
а = 0.05 时 ,z 值 分 别 为 3.33 和 1.65,， 当 选择 昆 著 性 水 平 为 0.01 时 ,检验 统计 量 = = 
2.05 , 低 于 其 界 值 ( critical value) 2.33。 因 此 ,认为 样本 均 数 讲 高 总 体 拘 数 很 近 ,经 X 化合 
物 处 理 后 ,G, 基 因 的 表达 没有 上 调 。 但 是 ,如 果 选 择 显著 性 水 平 为 0.05 ,检验 统 讨 量 > = 2. 
05 , 则 大 于 界 值 1.65。 这 种 情况 下 ,认为 样本 均 数 距离 总 体 均 数 足够 迁 , 即 经 X, 化 合 物 处 理 
后 ,G, 基 因 的 表达 出 现 上 调 。 

通常 ,显著 性 水 平 是 在 计算 检验 统计 量 之 前 预先 设置 好 的 ,假设 检验 遵循 以 下 步骤 :中 
提出 无 效 假设 (H,) 和 研究 假设 (H,) ,这 两 种 假设 必须 是 相互 排斥 并 包含 所 有 可 能 性 ;多 选 
择 合 适 的 分 布 进行 分 析 ; 母 选择 显著 性 水 平 ;人 志 很 据 资料 计算 检验 统计 量 ; 凶 ) 比 较 某 一 给 
定 显著 性 水 平 a 下 的 界 值 与 检验 统计 量 的 大 小 ,作出 是 否 接 受 无 效 假 设 的 决定 。 

值得 注意 的 是 ,以 上 的 假设 检验 举例 中 ,在 选择 不 同 的 显著 性 水 平时 ,同一 组 资料 ,可 能 
得 到 上 调 或 光 变 化 的 结论 。 这 有 必要 了 解 以 下 有 关 假 设 检验 错误 的 概念 。 


=2.05 


10.2.4 工 类 和 开 类 错误 
许多 教科 书 中 用 来 说 明 假设 检验 错误 的 最 著名 的 例子 是 法 庭 中 判断 一 个 人 是 否 有 罪 的 
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例子 。 这 里 ,我 们 沿用 上 节 假 设 检验 中 的 例子 来 解释 假设 检验 的 错误 。 先 有 必要 提醒 读者 
回顾 -下 该 例 中 的 两 个 假设 :无 效 假 设 和 研究 假说 。 

基因 表达 的 实际 情况 中 ,总 是 存在 两 种 情形 , -种 是 基因 表达 县 不 增加 , 另 -- 种 是 基因 
表达 量 增加 。 在 前 一 种 情形 下 , 即 了 蕊 为 真 时 ,有 两 种 假设 检验 的 结果 :号 基因 事实 上 是 未 上 
调 , 但 被 认为 是 上 调 , 妈 Ho 为 真 但 Hi, 被 拒绝 ;2@ 基 央 事 实 上 是 未 工 调 ,也 被 认为 未 上 着, 好 
了 为 真 但 Ho 未 被 拒绝 。 

以 上 第 一 种 情况 ,已 得 出 基 内 上 调 的 错误 结论 ,但 事实 上 该 基因 未 上 调 , 妈 出现 假 阳 性 
(false positive) 。 统 计 学 上 称 这 类 错误 为 类 错误 (type I eror) 。 第 二 种 情况 ,结论 反映 了 
真实 情况 , 即 真 阴性 (tmrle negative)。 工 类 错误 中 ,假设 签 验 的 显著 性 水 平 a 反映 了 事实 上 上 
为 真 而 拒绝 无 效 假设 的 概率 ,这 决定 了 被 拒绝 区 域 的 大 小 ,这 是 为 什么 上 一 节 的 例子 出 现 两 
种 不 同 结论 的 原因 。 

同样 , 当 实 际 情况 为 基 内 表达 增加 时 ,也 会 出 现 两 种 检验 鼻 设 的 结果 : 呈 基 因 事 实 上 是 
上 调 ,也 被 认为 如 此 , 即 H. B H Ho 被 拒绝 ;加 基 闪 事实 上 是 .上 调 , 但 被 认为 未 上 调 , 即 
Н, ЖИБИН. Ho 未 被 拒绝 。 

前 一 种 情况 结论 是 正确 的 , 姑 真 阳 必 (true positive) 。 后 一 种 情况 ,基因 实际 上 是 增加 
的 ,我们 却 得 到 一 个 错误 的 判断 认为 未 上 调 ,属于 假 阴性 (false negative) ,因此 失去 获得 一 种 
潜在 的 抗 癌 药 的 机 会 。 统 计 学 上 称 这 类 错误 为 下 类 错误 (iype 下 error) 或 8 错误 。 真 阳性 
率 (1 -8) 又 被 称 为 检验 效能 (power of test), 3X WIS E IR Af AU 10 -4。 


表 10-4 Rikt I. ПНЯ 


统计 检验 结论 — 
Hy E mAB 
HOSEORQRHEEO å — ЕСН о) а СЕЕ д) 
Н, 509,958) I 类 销 误 { 假 阳性 ,oa 结论 正确 ( 真 阳性 ,1 — 8) 


这 两 类 错误 相互 依赖 ,对 于 固定 样本 大 小 的 假设 检验 ,不 可 能 同时 降低 a 和 及。 降低 
会 增加 尼 , 反 过 来 亦 然 。 虽 然 很 容易 判断 工 类 错误 的 大 小 ,内 为 其 值 等 于 显著 性 水 平 ,但 计 
算 了 类 错误 的 概率 并 不 容易 。 除 与 显著 性 水 平 有 关外 , 卫 类 错误 还 与 其 他 因素 如 总 体 标准 
d (o) ,样本 大 小 (决定 抽样 分 布 的 标准 误 ) 等 有 关 。 通 常 ,提高 1 类 错误 率 (a) . 增 大 假定 
与 真实 值 之 间 的 差异 或 增加 样本 量 可 降低 [类 钳 误 率 ， 


10.3 ”常用 统计 检验 方法 


统计 检验 方法 有 多 种 。 通 常 分 为 参数 检验 和 非 参 数 检验 两 大 类 。 参 数 检验 依赖 于 分 
布 ,而 非 参 数 检 验 可 以 在 数据 分 布 不 明确 时 采用 。 这 里 仅 介绍 参数 检验 中 最 常用 的 上 检验 
(student t test) ,方差 分 析 (analysis of variance, ANOVA). EDIE (chi — square test) 也 是 
一 种 常用 的 参数 检验 方法 ,将 在 10.4 节 “ 关 联 分 析 ” 中 介绍 。 
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10.3.1 检验 

前 面 10.2,3 节 的 假设 检验 中 ,是 比较 样本 均 数 与 总 体 均 数 的 差异 ,又 称 Z 检验 。 当 样 
本 分 布 符合 分 布 (小 样本 ) 时 ,所 涉及 的 ZF 检验 方法 即 为 1 检验 的 一 种 。:! 检验 还 常用 于 比 
较 两 个 总 体 均 数 是 否 存 在 差异 。 

对 于 两 个 总 体 的 几 种 假设 检验 分 如 下 几 种 不 同情 况 : 人 中 检验 两 个 大 样本 和 相对 独立 的 
总 体 均 数 的 差异 ;名 检验 两 个 小 样本 和 相对 独立 县 标准 差 相同 的 总 体 均 数 的 差异 ;加 检验 两 
个 小 样本 和 和 相 对 独立 但 标准 差 不 滞 的 总 怀 均 数 的 差异 ;四 检验 两 个 配对 样本 的 总 体 均 数 的 
zB. 

这 里 所 谓 的 小 样本 ,通常 是 指 样本 量 小 于 30。 第 1 种 情况 仍 可 用 上 述 Z 检验 方法 或 5 
检验 方法 。 这 里 主要 讨论 第 名 .全 两 种 情形 下 的 上 检验 方法 。 

检验 中 ,必须 往 意 区 分 配对 或 不 配对 资料 ,方差 相同 或 方差 不 齐 , 单 侧 检验 或 双 侧 检 
验 。 单 侧 检 验 只 限于 具有 先 验 知识 的 情况 下 ,否则 采用 双 侧 检验 。 

先 看 下 面 的 例子 : 

假如 某 个 与 肿瘤 有 关 的 基因 C, ,分 别 在 处 理 组 (加 药物 X,) 和 对 照 组 (不 加 药物 闵 , ) 中 
进行 测定 。 在 对 照 组 中 所 得 结果 为 45,32, 62, 34, 59, 55, 39, 33 ,在 处 理 组 中 所 得 结果 为 
34, 35, 40, 22, 31, 40, 37, 32, 39, 42 ,那么 基因 的 表达 在 两 组 癌 是 守 存 在 差异 ? 

这 个 例 了 中 ,我 们 并 不 知道 两 个 样本 的 方 盖 是 否 相 同 { i 表示 对 照 组 方差 ,s* 表示 处 
理 组 方差 ) 。 即 使 这 两 个 样本 来 自 同 一 : 闪 体 ,其 方差 很 可 能 不 同 。 这 样 ,我 们 需要 建立 一 种 


2 2 
方法 进行 检验 和 推断 。 为 了 比较 方差 的 齐 性 ,通常 比较 两 种 方差 的 比值 二 或 六 。 这 个 比值 
符合 下 分 布 。 这 个 例子 中 ,可 得 到 以 下 统计 结果 ; 


n.=8 X, = 45.87 51 = 150.70 df, = 7 
n, = 10 X, - 35.2, 52 = 34.84 а = 9 
比较 两 组 样本 方差 的 假设 检验 为 : 

Н,:с, = G, 

Н: 30, 


显著 性 水 平 被 设 定 为 0.05 或 0.02( 为 描述 方便 ) 。 根 据 以 上 假设 ,属于 双 侧 检 验 ,必须 
状 虹 分布 的 两 端 ,为 了 简化 其 过 程 ,我 们 只 考虑 右 侧 下 分 布 的 情形 , 即 广 之 1。 根 据 下 分 
布 表 ,得 到 ; 


4 I0 = it i A Ag 学 МАА re 


Fontan = F oosa, ә) = 4.20 


Fi iat, а = Ë ом (7,9) = 5,61 


如 果 方 差 比值 大 于 不 值 ,He 被 拭 绝 。 方差 比值 结果 计算 如 下 : 


当 显 著 性 水 平 设 定 为 0.05 时 ,Ho 被 拒绝 44.35 2 4.20) ,表明 两 者 的 方差 不 齐 。 但 是 ， 
当 显 著 性 水 平 设 定 为 0.02 时 ,Ho 被 接受 (4.35 <5.61), 表 上 明黄 者 方差 相同 。 这 两 种 假设 检 
验 结果 可 导致 使 用 不 同 的 均 数 比较 方法 。 对 于 方差 机 网 或 不 齐 时 假设 检验 的 一 般 步 骤 如 
Fo 


(1) 无 效 假设 和 备 择 假 设 : 
Ho: He = 
H, : He 7B, 


(2)X T EER CEEZI E] P 30) ,符合 上 分布, 采用 上 检验 ; 
(3) 显 著 性 水 平 设 定 为 a = 0.05 , 备 择 假设 表明 属于 双 侧 检验 ,每 侧 的 显著 性 水 平 都 等 


a/2 = 0.025 
《4 六 检验 统计 量 为 : 


， _ х.) _ (н. P) 
5 


Xe 


其 中 ss 表示 两 样本 均 数 的 估计 标准 差 ,根据 无 效 假设 w. = 全 ,因此 t 检验 统计 量 的 计 
算 公式 为 : 


t = 一 一 一 《公式 10-10) 


10.3.1.1 方差 相同 时 了 两 独立 的 小 样本 的 假设 检验 
上 人 秽 中 ,如 果 考 虑 两 样本 方差 相同 , 式 10 -10 中 的 参数 计算 如 下 : 


———————— — — a # f Ë 学 E 
$ 


saos К (3A 10—11) 


(n, - 1)s; tin -lys 
n, +n, -2 


(公式 10 712) 


其 中 S$, 表示 两 样本 的 合并 标准 差 。 将 有 关 数 值 分 别 代 人 公式 10 -10.t0-11 和 40- 


12 得 到 的 计算 结果 为 ， 
К NI тух 150-70 (10 SEENEN 
s- =9.25 x L 41. =9.25 x0.47 =4.35 
= 8 110 
, „44.88 -35.20 _ 2.23 


df = n, + n -2= 8 «10 -2 = 16 


34 df =16 和 显著 性 水 平 为 0.0 时 , 双 侧 上 分 布 的 界 值 为 - 2.12 和 2.12。 由 于 + 统计 
ЇН ЖЕ 2. 12 ,无 效 假设 被 拒绝 。 这 里 的 结论 是 处 理 组 和 本 处 理 组 间 G, 基因 的 表达 差异 具 
ЖЕШ = М, 

10.3.1.2 方差 相同 时 两 独立 的 小 样本 的 慨 设 检验 

车 考虑 上 和 例 中 两 样本 方差 不 齐 , 有 关 t 统 计量 计算 的 相关 参数 为 ; 


《公式 10-13) 


150.70 34.84 
Si -u = $ + 10 =4, 72 


44.88 35.20 - 
= a o 


# 103 үү: ded mE йс жн к ninrin Md Umm MAAA идым. 


(公式 10-14) 


(507 „мү 
8 10 
df = =9.5= 10 
150.732 (34. 84у: 
(y (м) 
8-1 10-1 


当 df = 10 和 显著 性 水 平 为 0.05 时 , 双 侧 上 分 布 的 界 值 为 - 2.23 和 2.23。 由 于 上 统计 
值 小 于 2, 12 ,无 效 假设 被 接受 。 这 里 的 结论 是 处 理 组 和 不 处 理 组 间 С, 基因 的 表达 差异 不 
具有 显著 性 意义 。 

以 上 结 时 表明 ,假设 检验 的 每 -环节 都 对 推断 非常 重要 。 


10.3.2 方差 分 析 

i 检验 主要 用 来 对 小 样本 两 均 数 的 假设 检验 。 实 际 应 用 中 常 涉及 多 组 资料 的 比较 。 这 
时 尽管 可 用 上 检验 进行 两 两 比较 ,但 相对 烦琐 。 这 时 适合 选用 方差 分 析 (ANOVA)。 

方差 分 析 是 建立 在 下 分 布 的 基础 上 ,其 假设 是 :中 资 料 符 合 正 态 分 布 ;如 各 组 问 的 方差 
必须 等 同 或 非常 接近 ;( 太 各 观察 值 应 该 相互 独立 。 

ANOVA 分 析 的 无 效 假设 是 多 个 总 体 闻 的 均 数 没有 差别 ,其 对 应 的 备 择 假设 为 不 是 所 有 
总 体 的 均 数 都 相同 。 当 然 ,ANOVA 也 可 用 于 比较 两 总 体 均 数 的 差异 性 ,但 这 时 使 用 1 检验 
的 效率 更 高 。ANOVA 的 检验 假设 为 : 

H, = 所 有 总 体 均 数 都 相同 (Ho =н, =… mae 

H, = 不 是 所 有 总 体 均 数 部 相同 。 

备 择 假 设 中 ,可 分 为 以 下 几 种 不 同情 况 :中 所 有 均 数 间 互 不 相同 ;名 其 中 一 些 但 不 是 所 
丰 的 均 数 存在 差异 ;名 至 少 一 对 均 数 存 在 差异 。 

ANOVA 分 单 因素 (one — мау) 和 双 因 素 (two — мау) 两 种 ,它们 的 实验 设计 和 资料 分 析 
方法 有 所 不 同 ,但 两 者 的 核心 都 是 将 方差 进行 拆 分 。 这 里 仅 介绍 单 因素 ANOVA., AA Fi 
的 例子 ; 

假设 与 肿瘤 相关 的 基因 G, ,分 别 用 cDNA 微 阵列 测定 其 在 对 照 组 (未 经 处 理 ) ,处 理 组 1 
( £t X, 处 理 ) 和 处 理 组 2{ 经 化 合 物 X; 处 理 ) 中 的 表达 共 10 次 ,所 得 结果 见 表 10 - 
5。 需 要 知道 ,基因 G 在 这 3 种 不 同 条 件 下 ,其 表达 是 否 存 在 差异 ? 


| — IT ntt I AP tt Me Ades ee nes E3 IE E E й- 


| 表 10-5 ЖАС, 在 不 同 处 理 条 件 下 的 表达 量 和 ANOVA 分 析 表 


ik EP 对 照 组 处 理 组 X, 处 理 组 X, 
去 uo - — 7 
2 39 35 51 

3 49 40 30 

4 34 22 61 

5 55 31 57 

6 59 40 39 

了 39 37 33 

8 30 32 42 

9 45 39 40 

10 36 42 58 

Т, T, = 431 Т =352 T., =460 
X, X, 43.1 X. 235.2 Хы -46.0 
sj 5, z 86.1 52, = 34.8 51, 2116.6 
п, n, = 10 n, 210 n,, =10 


其 中 , 工 表示 各 样品 数值 总 和 ,ni 表示 样本 大 小 。 


ANOVA 分 析 步 又 如 下 : 

《1 作出 无 效 假 设 和 备 择 假设 ; 

H, = 所 有 3 个 均 数 都 相同 (Ho ш, = H =p) 5 

H, =3 个 均 数 并 不 都 相同 。 

27) 确定 显著 性 水 平 为 0.05。 

(3 计算 王 统 计量 : 先 计 算 组 阳平 方 和 (SSB) 和 组 内 平方 和 (5SW) ,然后 计算 组 间 方 差 
(МВ) HAHHAA MSW), 


— (公式 10-15) 


_[(431})° | (352)! (460) 1 (431 +352 +460)° _ 
ssp = O + +` |- x =624.87 
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T? т? T? 
SSW "xe [+ L. + Se) (ЖК 10-16) 
n n; n 
"uu 2 TN ; [(431)?, (382)! (460)°) _ 
SSW -(45)! + (39)? ++ +(58) io * а; |= 2 138.5 
MSB = 328. (公式 10 ~17) 


k-1 


PIE ятрак n 


其 中 - 工 是 组 问 方 差 的 自由 度 , 即 3 —1-2. ЧК: 


MSB "654.94 812,43 
MSW -> (公式 10-18) 
Epa -不 为 组 内 方差 的 白 由 度 , 即 30 - 3 = 27, Hik: 
MSW S3. 79.2 
Fi mm E ЖЫ: 
TI 


Yr se Sep RTAE E EORR BEES ANOVA 的 分 析 钻 果 。 如 此 例 分 析 中 ,用 微软 的 
Excel 软件 得 到 的 ANOVA 统计 结果 见 表 10 -6。 


10-6 Excel 输出 的 ANOVA 分 析 结 果 


TE т Ж SS dí MS F P — value F Efi 
Bp — 624.866 7 2 312.4333 3.944 681 0.031 409 3.354 131 
УЯ 2138, 5 27 79.2 037 

总 变异 2 763.367 29 


(4) 作 出 统计 推断 或 结论 。 由 于 计算 得 到 的 五 =3.94, 大 临界 值 3.35 ,因此 无 效 假设 
被 拒绝 ,认为 基因 表达 结果 中 ,至 少 两 组 的 表达 差异 具有 显著 性 意义 。 


(RES X £ A 译 ) 


10.4 关联 分 析 


关联 (association ) 是 指 两 个 事件 非 随机 地 共同 发 牛 ( 正 关联 ) 和 或 非 随机 地 相互 排斥 ( 负 
关联 )。 关 联 分 析 是 统计 遗传 学 和 药物 址 传 学 中 的 稼 用 分 析 方 法 ,主要 用 于 病例 对 照 资 料 
的 分 析 。 其 中 最 常用 的 统计 方法 是 由 对 危险 度 (relative risk, RR, 或 称 相 对 危险 率 ) 和 几率 
比值 (odds ration，OR) 的 计算 。 存 讨论 这 些 计算 方法 前 , 顷 明 确 两 个 统计 学 基本 概念 :上 患 病 
率 ( prevalence, 已 ) 与 发 病 率 {incidence, 7), RE REX -观察 时 点 总 人 群 中 存在 的 患者 
总 人 人 数 。 发 病 率 是 指 某 一 观察 窗口 时 间 认 ,危险 人 群 中 新 发 生 的 病例 数 。 上 串 病 率 通 常 由 回 
MEA (retrospective study) 得 到 ,发病 率 通 常 由 前 脆性 研究 (prospective study) 19:3], RR 
的 计算 是 采用 发 病 率 ,OR 的 计算 常用 患 病 率 ,也 可 用 发 病 率 。 


10.4.1 ВЕКЕ 
АХЛ E М АВН Д ҖЕ ( relative incidence ) ,是 指 具有 某 种 危险 因素 (exposed risk) 


ee PPP 4 #15 Ë 学 EH 


人 和 群 中 基 种 疾病 的 发 病 率 与 不 具有 这 种 危险 因素 人 和 群 中 该 痰 病 发 病 率 的 比值 ,其 具有 危险 
因素 者 某 疾病 的 发 生 和 危险 率 是 匹 危 险 因 素 者 的 倍数 。 所 亩 危险 轩 崇 通常 措 相 观察 的 发 病 风 
险 因 烷 ( 如 吸烟 .高 血压 ) .基因 型 (如 НГА 分 型 ) 或 药物 遗传 性 状 (如 SNP) £, RR 分 析 主 
要 用 二 病例 对 赂 资料 。 首 先 ,必须 设 定 病 例 各 对照 两 个 组 别 ,再 分 别 统计 每 组 中 共有 上 或 不 县 
有 革 种 危险 因素 的 人 数 , 列 出 表 10 -? 的 四 格 表 (2 x2 表 ) 。 


310-7 相对 危险 度 分 析 表 


危险 内 素 35 00 Ж 对 照 数 合计 

RISK CASE — CONTROL TOTAL КЕ 
diC YES) a b а+Ь=Е 
Ei NO】 c d съ = Е 

合计 (TOTAL) а+с=6б b+d=ĦH a+h+e+d=N 


根据 表 10 -7, RR 的 计算 公式 为 : 
RR = (a/E)/(c/F) 2 aF/cE (公式 10 - 19) 


计算 结果 的 分 析 中 ， 

当 RR = 1, ХЭ; 

当 RR >1, 正 关联 性 ,而 且 RR RA, FAKER RE ; 

当 RR <1, 免 关联 性 ,而 且 RR 越 小 , 负 关 联 程度 越 高 。 

在 作 统 计 推 断 前 , 须 对 所 得 到 的 RR 值 进 行 显著 性 检验 。 但 结果 分 析 时 ,更 重要 的 是 计 
算 RR 的 置信 限 (confidence limit, CL) ,常用 Katz 法 。 


Var(lnRR) =[{Ь/а)/(Ь-+а)]+[(4/с)/(е+4)]=[5Е(ЫВВ) 1° 
(公式 10 — 20) 


95% CL =1nRR +1. 96SE( InRR) (4555 10 -21) 
根据 RR 的 置信 限 ,判断 其 关联 性 是 否 具 有 统计 学 意义 。 


10.4.2 MÆHLE 

几率 比值 的 计算 中 ,数据 资料 与 RR 相似 , 见 四 格 表 10 7, OR 是 指 具 有 和 危险 因素 人 
HARA 与 非 患 者 之 比 相当 于 不 具有 危险 因素 人 群 中 患者 与 非 患 者 之 比 的 倍数 , 即 患者 与 
非 患 考 的 几率 在 危险 和 非 危 险 人 人 群 中 的 比值 。0R 的 计算 公式 为 


OR = Ca/b)/(c/d) = ad/he (公式 10 -22) 


FF Sira dba e СЕСЕ 


值得 注意 的 是 ,如 果 将 式 10 -22 作 适 当 变 换 , 可 以 看 出 : 
(a/c)/(b/d) 2(d/c)/(b/a) = (аЬ) (сла) 2ad/be OR ( 式 10-23) 


XX 10 -23 代表 不 同 的 配对 比较 ,得 到 的 OR 相同 。 如 病例 组 中 有 危险 因素 的 患者 与 无 
危险 因素 的 患者 之 比 (ac} 相 当 于 对 照 组 中 有 危险 因素 的 非 思 者 与 无 危险 因素 的 非 患者 之 
Сола) ВЧК ,也 同样 等 于 上 述 OR 值 。 

—R Hb ,如 果 某 种 疾病 属 罕见 病 , 邯 患 病 率 忆 通常 小 于 0.05 时 ,常用 OR 代 震 RR. 

OR 订 算 结果 的 分 析 与 RR 相似 : 

当 OR = 1 ,无 关联 性 ; 

当 OR >1, 正 关联 性 ,而 且 OR 越 大 ,下 关联 程度 越 高 ; 

当 OR <1, 负 关联 性 ,而 且 OR 越 小 , 久 关 联 程度 越 高 。 

在 作 统计 推断 前 , 须 对 所 得 到 的 OR 值 进行 显著 性 检验 。 同 样 ,结果 分 析 时 , 须 计 算 OR 
的 置信 限 。 常 用 Woolf 法 。 


Var(InOR) =(1/а) +(1/Ь) + (17e) +(1/4) = LSECInOR) ]? 
(公式 10 — 24) 


95% CL = InQOR( 1. 96SE(InOR) (公式 10 - 25) 
例如 ,在 有 关 冠 心病 与 血清 胆固醇 水 平 的 研究 中 ,得 到 表 10 -8 的 结果 。 


3&10-8 血清 胆固醇 水 平 与 冠 心 病 的 发 生 


vise RB [3] 8Z ein , 

( mg/dL) 冠 心病 患者 数 对 照 数 合计 

= 250 a =10 b = 125 а+һ=135 

< 250 e -21 d =449 с+а=470 

合计 a+c=3l b+d=574 a +b +c + d =605 


根据 公式 10 - 19 ,得 到 RR 21.66; 根据 公式 10 -22, 得 到 OR 21. 71, RR ОВ 都 大 
于 1.0, 似 乎 认为 血清 胆固醇 水 平 高 于 2.5 g/L 时 ,与 冠 心病 的 发 生 呈 正 关联 性 。 进 一 步 计 
算 OR 的 CL. 根据 公式 10 -24, 求 得 SE(InOR) =0.397 3,In0R =ln1.71 20.536 5, 因 此 按 
公式 10 -23,95% CL 24 0.79 ~3.73。 同 样 按 公 式 10 -20 和 10 -21 ,可 求 得 RR 的 95% CL 
为 0.80 ~3.43。 因 OR 和 RR 的 置信 限 都 包含 1.0, 认 为 这 种 关联 性 在 统计 学 上 无 意义 。 以 
上 的 统计 结果 可 用 SAS 进行 验证 。 


10.43 АВАВ Е 
HAME (attributable risk ,AR) 是 指 总 的 相对 危险 度 中 ,要求 分 析 由 于 危险 内 素 所 引 
起 的 危险 上 度 是 多 大 ,以 及 该 危险 因素 对 整个 人 群 的 危险 性 义 是 多 大 。 


— ВЗА 


为 了 禾 述 方便 , 先 结合 表 10 77 给 出 下 列 符 导 所 代表 的 含义 : 
I = ЛЕ #Н В] ЖЭР (а/Е) ; 

h = 非 危 险 组 的 发 病 率 (ec/F); 

RR = IARE); 

二 = 总 人 群 中 的 发 病 率 (GAN) ; 

P= 偿 险 组 人 群 占 总 人 群 的 比例 (E/N); 

L. = 危险 组 中 因 危 险 因 素 所 引起 的 发 病 率 ; 

n, = 由 于 危险 因素 所 引起 的 病例 数 ， 

ARs% = 危险 因素 对 危险 组 的 归 因 危险 度 百 分 数 ; 

АБ... = 危险 因素 对 总 人 糙 的 归 因 邹 险 度 百 分 数 。 


根据 以 下 公式 分 别 计算 : 
L. =l -h 【公式 10 -26) 
n, =a x (RR - 1)/RR,a = МУ, 《公式 10 -27) 
АВ. = (L,/ L) x 100 = [ (RR - 1)/RR] x 100 (AI 10-28) 
АҢы% = [О - 1) L] x100 (2520610 - 29а) 


= РВВ -1) x100/[1 + P(RR -1)] 
(公式 10 —29b) 
公式 10 -29a 用 于 队列 研究 (cohonrt study) ,公式 10 -29b 用 于 队列 研究 或 病例 对 照 研 
究 。 这 些 统计 的 假设 是 没有 其 他 混杂 因素 的 干扰 。 以 表 10 -9 的 18 Epi 
关联 性 队列 研究 结果 为 例 , 说 明 归 因 和 危险 度 的 计算 方法 。 


表 10-9 收缩 压 (SBP) 与 冠 心病 {CHD) 关联 性 调查 结果 (18 年 期 ) 


но x XU = TRANE RAR RR 
z:165 95 20H 296 0. 321 1.98 
« 165 173 894 Í 067 0.162 1.00 
合计 268 1 095 1363 ` 0.197 / 


根据 上 表 结 果 ,可 以 得 到 以 下 分 析 数 据 : 

(1) «1, - 1, 20.321 -0.162 =0.159, 即 高 SBP ДА > 165 mmHg) Р SBP 高 引起 
的 СНО 发 病 率 为 0. 159. 

(2) n, =a x (RR - 1)/RR =95 х0. 98/1. 98 =47, 即 高 SBP A GE HH ES SBP 高 导致 的 
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CHD 患 病人 数 为 47 А. 

(3) AR,,96 = (L ZL) x100% = 0. 159 x 10096 /0. 321 = 49. 5% ,表明 高 ЭВР 人 和 群 中 
SBP 高 对 CHD fj prios y 49.5% „ 

(4) ARa% = [ (7, -4)/ Ll x10096 = (0.197 – 0. 162) х100%/0, 197 = 17. 896 , 表 
明 由 于 SEP 高 (165 mmHg) 5 bi Poo АЖЕ PP ab. Db B 17.8% a 

如 果 和 危险 因素 分 党 个 不 同 水 平 (strata] , 则 按 以 下 公式 计算 总 人 群 归 因 危险 度 ( AR ) A 
各 不 同 水 平 的 归 因 危险 度 ( AR,)，。 


AR, = SEP.xRR,—P.)/E(P, xRR,)] = > AR, = (L h) Lo, L = x P, хі) 
(公式 10-30) 


Жр, PUR RR, 分 别 表示 第 “ 疡 水 平 的 发 病 率 .人群 比例 与 相对 危险 庶 。 
AR, = (P, x RR, - P;)/ Z (P, x RR.) (公式 10 -31) 


仍 以 表 10 -9 的 研究 为 例 ,说 明 其 计算 方法 。 这 里 SBP < 165 的 组 别 被 分 成 140 ~ 164 
和 <140 两 个 组 , 即 SBP 共 分 3 个 不 同 水 平 , 见 表 10 - 10 结果 。 


表 10~10 收缩 压 {SBP) 与 冠 心病 (CHD}】 关联 性 调查 与 统计 结果 (18 年 期 ) 


SP UDBK aH 1 P. RR, AR 
(mmllz) 是 m 

g 165 95 201 296 0.321 0,217 2.50 0. 214 
140 ~ 160 100 399 409 0. 200 0,366 1.56 0.133 

< 14ü 73 495 568 0. 129 D.417 1.00 0.000 

合计 268 I 095 1 363 0. 197 1.000 Fd 0.347 


根据 表 10 - 10 的 结果 及 公式 10 -3 ,可 得 到 以 下 结果 : 

(1) LA BEI REESE AR, = (h-hh) 五 =(0.197 -0.129)70.197 =0.345 ,表明 由 于 
SBP $&( 22140 mmHg) 引起 的 冠 心病 占 人 和 群 中 所 有 和 冠 心 病 的 34.5% 。 

(2) 不 同 SBP 水 平 的 归 因 危险 度 的 计算 { 按 公 式 10 -31): 

XP, x RR, =0. 219 x2. 50 +0. 366 x 1.56 +0. 417 x 1. 00 =1. 535 

AR „ы = (0. 219 х2. 50 20.219) 71. 535 =0. 214 

AR as зы = (0. 366 х1. 56 20. 366) /1. 535 20. 133 

AR us = (0.417 x 1. 00 –0. 417) /1. 535 =0. 000 

xx E пу EUR (2) ЕСТ) RAR, H: 
AR, = EAR, 20.214 +0. 133 +0. 000 =0.347 


10.4.4 ЖЕ 
当 人 群 结构 出 现 差异 时 ,如 年 龄 .性别 的 不 同 , 率 的 比较 会 出 现 仿 差 。 因 此 在 率 的 比较 
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S 
UK | 前 ,必须 先 对 率 进行 标准 化 (standardization) 。 最 常用 的 率 的 校正 方法 或 标准 化 方法 是 对 年 
龄 的 校正 ,分 直接 校正 和 间接 校正 两 种 方法 。 
10.4.4.1 率 的 直接 校正 法 
直接 校正 法 是 在 已 知 标准 人 群 各 年 龄 段 人 群 数 (n, ) 和 待 校正 人 群 各 年 龄 段 率 (p ) 的 
某 础 上 进行 的 。 这 样 , 丙 个 或 多 个 率 都 以 标准 人 群 为 参照 , 校 赴 率 就 排除 了 年 龄 结构 的 不 
同 ,可 以 较 客观 地 反映 率 的 差别 与 否 。 其 校正 公式 为 ; 


МЕЖ = > (p, n,)/ > n, (公式 10 - 32) 


10.4.4.2 Жен 

IB EFE TE TE Fe E CS АНТЕ Л EAS AES РЕЖЕ ( p, ) Ej A ESI (n1) ,以 及 标准 人 和 群 中 各 年 
В Cp, MAPS Cn, ) HÆ E IPPRETEZ HE. ЗЕЛ НЕНУЕ: ТЕБ n АЛ НЇН 
fS ELEC Ж morbidity ) 或 死亡 率 ( mortality) 的 情况 下 ,被 研究 人 群 中 各 年 龄 段 期 望 的 发 病 或 
死亡 人 数 。 间接 校正 中 需要 先 计 算 标 淮 化 发 病 率 或 死 广 率 ( 简 称 SMR): 


SMR = 观察 人 数 总 和 /期 望 人 数 总 和 
= > (p,n,)/ Z( р.п.) {公式 10 -33) 


校正 率 = SMR x Z(t рц, )/ У n, (公式 10 -34) 


公式 10 -33 的 计算 结果 中 , 当 SMR > 1 时 ,表示 相对 标准 人 人 群 而 言 ,所 研究 人 群 的 危险 
度 更 高 ;SMR <1 时 ,表明 所 研究 人 群 人 危险 度 较 标准 人 群 低 ;SMR = 1 时 ,表示 两 者 无 区 别 。 
实际 应 用 中 , 沿 须 计算 SMR 的 置信 限 ,其 方差 为 (SMRAE) Е 为 期 望 人 数 总 和 。 


10.4.5 ЛЕЕ 

ВИЕ 10.4.2 节 有 关 OR 的 计算 是 假定 无 混 尖 因素 (ceonfounder) 或 相互 作用 ( interac- 
tion) 的 情况 。 实 际 应 用 中 ,OR 常 受 年 龄 ,性 别 等 的 影响 ,可 导致 偏差 ,必须 进行 校 下 ,才能 
较 客观 地 反映 关联 性 大 小 。 这 里 所 用 的 校正 方法 是 指 不 用 多 因素 分 析 模 型 进行 的 校 止 , 常 
用 Mantel - Haenzel 和 Woolf 两 种 方法 ， 实 际 应 用 中 ,对 于 较 复 杂 的 样本 资料 ,常用 下 文 将 
用 及 的 包 元 回归 模型 进行 校正 ,以 排除 混杂 因素 和 相互 作用 的 影响 。 

10.4.5.1 Mantel - Haenzel 校正 法 

Mantel - Haenzel УЕ ( f&j PF M — H 32 Xf OR 的 校 赴 是 根据 可 能 的 混杂 因素 (如 年 龄 ) 将 
资料 拆 分 为 不 同年 龄 段 的 2 x2 资料 (strata) ,再 根据 这 些 不 同 分 屋 资 料 ( 符 号 意义 参见 表 
10 -7) ,利用 公式 10 -35 计算 总 的 OR( OR,,,) ,然后 按 公式 10 - 36 进行 显著 性 检验 (xw 的 
自由 度 为 1) ,再 按 公 式 10 -37 计算 该 OR 的 置信 限 。 利 用 SAS 软件 的 CMH 选项 时 ,可 自 
动 给 出 卡 方 检验 结果 和 М-Н 法 校正 OR 的 置信 限 ( M. OR 结果 中 Mantel - Haenzel 一 栏 ) ， 
说 见 10.6.2 节 。 
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OR, = È (adi N) ( Zb,c//N,) CA 10-35) 
хын = (Ea; Bm) /Bt {公式 10 -36) 
其 中 m,-E,xG,/ №, 
v (E ХЕ, хб, xH)/ UIN x (М, -1)] 
9595 CL = OR, +*1.96[1n OR (уы) ^] {公式 10-37) 


10.4.5.2 Woof 校正 法 

Woolf 法 对 OR 的 校正 较 适 用 于 两 个 以 上 滥 杂 因素 (如 年 龄 + 性 别 ) 的 资料 ,并 可 测试 不 
同 混杂 因素 间 是 否 存 在 相互 作用 (公式 10 -40) ,但 不 能 圭 接 用 于 单元 格 数据 为 “0" 的 资 
料 。 这 时 ,可 用 数值 "0.5” 来 替代 ,或 选用 M -H šE, OR; EI TESET IE ДЗК 10 -38, 其 
置信 限 的 计算 用 公式 10 -39 ,利用 SAS 软件 的 CMH 选项 时 ,也 可 同时 给 出 Woolf 法 的 校正 
OR АА OR 结果 中 Logit 一 栏 》。 


ЊОВ ын = E (u, x MOR) Xu, (公式 10 -38) 
其 中 ш, = (1/a.+1/b,+1/c, +174) =1/Var{ lnOR,) 
9596 CL = OR, 21.96 x [17/(9,) 7] (公式 10 -39) 
xi, = CInOR, - InOR a) ^ / Var(InOR,) (56 10-40) 
自由 度 中 ,上 表示 2 x2 表格 数 。 


例如 , 表 10 — 10 中 ,如 果 将 SBP AA 2140 #l < 140 两 组 ,根据 公式 10 – 22 和 公式 雹 -站 
可 分 别 求 得 校正 前 的 OR { = (195 x495)/(73 x600) z2.20,9596 CL 1. 64 22.95, 
现 将 该 组 资料 被 年 龄 和 性 别 细 分 为 表 10 - 11 的 结果 , 即 被 拆 分 为 4 个 2 x2 表格 。 


表 19 -上 1 不 局 性 别 和 年 龄 组 收编 压 LSBP} 与 冠 心 病 关 联 性 调查 结果 


性 别 ХЕ ^ SBP(mmHg) [E 非 患 者 数 合计 
男性 >55 =140 50 85 135 
< 140 20 了 8 98 

«55 z140 38 154 212 

< 140 36 162 198 

女性 255 140 46 143 189 
<140 7 64 71 

<55 z140 41 218 259 

< 140 10 191 201 


合计 268 1 095 І 363 
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根据 .F 表 资料 ,可 将 计算 结果 列 于 表 10 - 12。 


表 10 -12 Woolf 法 校正 OR 的 统计 参数 表 


组 别 OR, InOR, Var( InOR;) 17 м; 

НЕ 255 2.294 0.830 0. 095 10. 572 
Е «55 1. 695 0. 528 0. 058 17.335 
В >55 2.941 1.079 ü. 187 5.341 
去 性 <55 3.592 1.279 0. 134 7.451 


将 表 10 - 12 的 计算 结果 代入 式 10 - 38, 得 到 106, 20.816, B) ORG, 72.26, FEIER 
的 OR 值 与 校正 前 的 OR ( (2.20) JE2E EXE, HRA 10 - 39, 1 ЖШ ORB 95% Ж {Н 
371.66 ~3.08 ,也 与 校正 前 OR 的 置信 限 很 接近 。 最 后 根据 公式 10 40 EE yi =3.402 < 
Хоз =7.815, 因 此 P >0.05。 表 明 本 组 资料 中 ,性 别 ЖЕҢ Ж SBP 之 间 不 存在 相互 作用 。 


10.5 相关 与 回归 分 析 


相关 ( correlation) 分析 与 关联 分 析 一 样 ,也 是 统计 生物 信息 学 的 党 用 方法 之 -。 基 因 组 
学 研究 中 ,两 者 都 用 于 分 析 某 种 基因 型 或 遗传 标志 与 表 型 (疾病 或 性 状 ) 的 关系 ,但 了 两 者 所 
适用 的 资料 类 型 有 所 差别 ,回归 分 析 的 数据 来 源 于 对 同一 个 体 不 同 变 量 的 观察 ,实验 设计 可 
以 是 队列 研究 .病例 对 照 分 析 或 横断 面 分 析 ( cross — sectional design) 。 相 关 分 析 常 3 IUE 
析 (regression) -起 使 用 。 相 关 与 回归 分 析 都 是 研究 变量 之 则 的 相生 关系 。 相 关 分 析 主 要 
用 于 描述 变量 之 阅 相 关 性 的 强度 ;而 回归 分 析 主 要 是 通过 建立 一 个 变量 间 相 互 关系 模型 ,在 
给 定 其 个 或 某 些 变量 值 的 条 件 下 ,用 二 估计 或 项 测 其 他 变量 值 , 即 分 析 变 量 间 的 相互 依存 关 


10.5.1 线性 相关 与 回归 

描述 其 个 变量 问 直 线 关 系 的 密切 程度 和 相关 方正 的 统计 上 指标 是 相关 系数 ,通常 用 + 表 
示 , 其 取 值 范围 是 -1 和 +1 之 间 。 当 r= -1 时 ,表示 完全 负 相 关 ; 当 r=1 时 ,表示 完全 正 
相关 ; 当 r=0 时 , 称 为 零 相关 ,表示 不 存在 线性 相关 (不 排除 非 线 性 相关 关系 )。 相 关系 数 的 
*& x {Н ES T 1 ,表示 直线 相关 程度 愈 密切 ;其 绝对 值 僵 趋 近 于 0 寺 , 说 明 直 线 相 关 关 系 
愈 不 帘 切 。 相 关系 数 的 计算 是 根据 离 均 差 平方 和 以 及 房 均 差 积 和 等 统计 指标 进行 的 。 由 丁 
涉及 到 较 大 样本 时 ,按照 计算 公式 非常 烦琐 ,主要 利用 常用 统计 软件 (如 SPSS 等 ) 直 接 给 
出 ,同时 可 得 到 该 相关 系数 品 苦 性 检验 结果 (检验 )。 如 果 已 知 总 体 的 相关 系数 有 ,需要 比 
较 居 样本 的 相关 系数 了 是 和 否 来 日 同一 总 体 ,或 者 需要 毕 较 两 相关 系数 是 否 来 日 同 总体, 时 
需要 先 转 换 为 Z 值 (标准 正 态 分 布 ) ,再 进行 之 检验 。 

线性 回归 是 处 理 两 变 盟 朵 的 线性 依存 关系 的 统计 六 法 。 通 常 以 表示 日 恋 量 (inqe- 
pendent variable) ,其 数值 是 通过 实验 已 确定 的 ，- 般 认为 没有 误差 或 误差 很 小 。y 是 依存 变 
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T s pR ISI ЗЕ Bt C dependent variable) , 因 x 的 变化 而 改变 ,属于 随机 变量 ,服从 于 正 态 分 布 。 
回归 分 析 的 目标 是 建立 y 与 x 的 线性 回归 方程 ,使 得 当 x 为 某 一 定 但 时 ,在 某 一 范围 内 变 
动 。 即 满足 下 列 回归 方程 : 


y=a+bx (AT 10-41) 


回归 方程 中 ,y 表示 由 * 所 推算 的 估计 值 ;a 为 作 图 中 * ЭЙТ; b 为 斜率 ,又 称 回 归 系 
数 ,表示 x 每 增加 或 减少 -个 单位 ,y 将 随 之 增加 或 减少 pb 个 单位 - b 值 可 为 正 数 ,也 可 为 负 
数 。 所 得 到 的 回归 直线 各 点 应 该 是 因 变 量 实际 值 与 估计 和 值 之 差 的 平方 和 的 最 小 值 ,符合 最 
小 二 导 法 {least square method) 原理 。 回 妇 方 程 的 得 到 主要 是 计算 a 和 bb 值 ,其 计算 过 程 烦 
Bi. 实际 说 用 中 ,通常 也 是 通过 软件 直接 得 到 ,并 进行 人 大 妇 方 程 和 回归 系数 的 显著 性 检验 。 
同 归 方 程 的 显著 性 检验 是 用 方差 分 析 ( 媚 , ，， = 回归 均 方 / 误 差 岁 方 ) ,回归 系数 的 显著 性 检 
WAR CESSCRBE-n-2). 

相关 与 回归 都 是 用 来 研究 变量 之 问 的 相互 关系 ,两 者 既 有 区 别 ,也 有 有 联系。 首先, 相关 
分 析 中 的 两 个 变量 者 是 随机 变量 , 旦 均 服 从 于 出 态 分 布 ,主要 反映 两 变量 间 的 相互 关系 。 而 
回归 分 析 中 , 仅 因 变 明 为 随机 变量 , 自 变量 是 疝 定 的 非 随 机 变量 ,用 米 皮 映 两 变量 间 的 依存 
关系 。 其 次 ,回归 分 析 除 反映 两 变量 间 的 关联 性 外 ,还 可 通过 自 变 量 预 测 因 变 量 的 数值 。 两 
者 的 相似 之 处 是 ,相关 系数 与 回归 系数 的 企 负 号 相同 , 即 其 关联 性 的 方向 相同 ,而 且 两 者 可 
以 通过 公式 互相 换算 。 疡 就 是 指 回 归 平 方 和 在 总 平方 各 中 所 寺 的 比值 , 取 值 范围 为 0 ~1 ,其 
ЖИ EP 1, 表明 回 归 效 果 愈 好 ,或 关联 强度 愈 大 。 当 下 20.25 时 ,表示 一 变量 的 变异 
中 25 怠 是 由 另 一 变量 所 引起 ,另外 75 免 的 变异 是 由 其 他 因素 引 超 。 

ЖЕН SPSS 软件 进行 回归 分 析 的 基本 落 骤 是 :中 将 数据 作 艇 点 图 ,观察 是 否 共 有 直线 趋 
势 ,可 同时 对 误差 大 小 作 图 ( * ZRESID vs + ZPRED) ,观察 其 分 布 ;名 建 并 统计 假设 ( 单 人 或 
双 侧 检验 ) ; 仿 作 回归 直线 ORERETAN B: ,评价 回归 方程 的 意义 ;全 分 析 假 设 检验 结 
果 , 作 统计 排 断 和 结论 。 


10.5.2 协 方差 分 析 

Dr 352 HT (analysis of covariance ， ANCOVA) 是 将 直线 回归 分 析 与 方差 分 析 ( 参 见 10, 
3.2 节 ) 联 合 起 来 的 一 种 统计 方法 ,常用 于 消除 混杂 因 崇 的 影响 ,以 提高 分 析 结 果 的 可 靠 性 。 
其 检验 方法 基 将 与 7 呈 直 线 关 系 的 4 值 化 成 几 等 分 后 ,再 来 检验 y 修 止 均 数 间 的 显著 性 ВП 
把 各 种 处 理 所 得 的 因 变 量 y 调整 为 一 个 公共 的 自 变量 * 所 应 该 具有 的 估计 量 。ANCOVA 分 
析 的 宗旨 是 利 册 混杂 因素 如 性 别 或 年 龄 ,将 自 变 量 分 为 更 加 均匀 的 不 同 组 别 , 分 别 建立 回归 
方程 ,确定 其 显著 性 ,同时 比较 各 回 妇 系数 是 否 来 自 同一 总 体 , 即 是 否 呈 平行 线 。 坊 方差 分 
析 可 用 于 两 组 或 多 组 资料 的 比较 。 访 方差 分 析 的 假设 是 同 归 分 析 和 方差 分 析 假 设 的 合并 ， 
包括 : 

各 组 样本 是 从 共有 相同 方差 的 正 态 分 布 总 体 中 抽样 得 到 ; 

备 组 样本 的 僻 归 方差 均 且 有 显著 性 意义 ,而且 斜 率 相同 ( 呈 平 行 线 ) 。 

ANCOVA 分 析 的 结果 ,如 接受 假设 ,表示 该 混杂 因素 对 办 变量 无 影响 ,可 以 合并 分 
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组 ,建立 总 的 回归 方程 。 


10.5.3 ”多元 线性 回归 
多 元 线性 回归 (multiple linear regression) 是 用 线性 方程 来 描述 和 分 析 一 个 因 变 量 与 多 
个 自 变 量 之 则 的 数量 依存 关系 ,其 表达 式 为 : 


у= + ух, + Вуху te b bu, 【公式 10 242) 


ERT ҺУН ,Ь, ,有 ,及 称 为 偏 回归 系数 (partial regression coefficient) 。 与 简单 
线性 回归 - - 样 ,其 计算 多 通过 SPSS 或 SAS 软件 直接 给 出 ,同时 ,加 妇 方 程 的 显著 性 检验 用 
方差 分 析 { 上 ,i_1 = 回归 均 方 /误差 均 方 ) ,回归 系数 的 显著 性 检验 用 + 检验 (自由 度 =n 一 
-1)。 与 多 元 回归 分 析 密 转 相 关 的 是 包 元 相关 系数 的 计算 ,也 称 复 相关 系数 ,用 怀表 示 。 
以 天 表示 复 相 关 指 数 或 确定 系数 ,来 反映 自 变量 对 因 变 量变 异性 的 贡献 率 。 在 利用 SPSS 
软件 进行 多 元 回归 分 析 时 , 常 利用 散 点 图 观察 分 布 趋势 ,并 对 误差 大 小 作 图 ( ж ZRESID vs 
+ ZPRED) ,观察 其 分 布 。 各 自 变 量 的 方差 , 即 F - Statistic ,是 多 元 回归 分 析 的 重要 参数 , 实 
际 是 伍 回归 系数 上 检验 的 结果 换算 而 来 


F=f = (b/5E Y (公式 10 -43) 


EAF, F k R B Fm BJ F — Statistic , b, 2M fii EA RA, ;为 该 候 回 归 系 数 的 标准 
误 。 

一 般 而 言 , 当 自 变 量 越 多 ,回归 平方 和 越 大 ,剩余 平方 和 越 小 ,7y 千 计 值 的 误差 越 小 , 因 
而 该 回归 方程 的 预报 越 精确 。 多 元 线性 回归 所 包含 的 自 变量 较 多 时 ,有 些 自 变量 对 因 变 量 
y 的 影响 不 显著 时 ,需要 加 以 剿 除 。 一 个 优化 的 回归 方程 , 既 要 考虑 不 能 遗漏 对 y 有 显著 影 
响 的 任何 户 变量 ,又 要 尽量 将 那些 对 y 无 显著 性 影响 的 变量 完全 排除 掉 ,使 最 终 的 回归 方程 
PREX y 影响 显著 的 变量 。 优 化 多 元 线性 略 归 方程 的 方法 分 前 进 法 (forward. selection) , 
后 退 法 (hackward selectiony 和 逐步 法 ( stepwise selection ) 3 种 。 以 逐步 法 较 常 用 , МОЈЕ 
回归 分 析 。SPSS 软件 中 可 同时 提供 上 述 3 种 选项 ,读者 可 结合 实例 ,比较 3 种 方法 所 得 到 
的 回归 模型 的 差别 。 无 论 选择 那 种 优选 方法 ,最 后 模型 中 的 结论 应 该 相同 或 地 似 。 

前 进 法 中 AEA 如 项 开始 ,界定 需要 引信 的 和 月 变量 个 数 。 分 别 引信 每 个 外 变量 ,得 到 
各 自 的 回归 方程 ,进行 方差 分 析 ,确定 其 显著 虱 ,并 定义 下 一 Enter 值 (通常 为 P=0.05 时 的 
FB). ЯТ F -Statistice KF F -Enter НАЕ, 比较 下 -Statistic 值 大 小 ,选择 其 中 数值 
最 大 者 ,引入 回归 方程 并 固定 下 来 ,作为 如 x 项 。 然 后 从 Y= b. + bx 开始 , 按 同样 的 方法 选 
Е b,x, ых 等 ,直至 bx;, 即 没有 自 变 量 满足 可 进入 回归 方程 的 下 -Enter FH IE: 

后 退 法 中 , 先 将 所 有 个 变量 全 部 引入 ,得 天 总 的 回归 方程 ,界定 下 -Siay 值 (通常 为 P 
-0.051 НВР, 55 ЕЖ F — Enter 值 一 样 ,SPSS 软件 中 可 使 用 甚 设 定 的 缺损 值 ) ,计算 各 
AWERI F – Statistie (EL, # F — Statistio 小 于 五 - Stay 界 值 的 变量 中 ,选择 其 中 F — Statistie 
值 最 小 者 ,加 以 昌 除 。 这 样 ,回归 方程 中 仅 售 天 -1 个 自 变 量 。 接 同样 的 方法 ,每 次 剔除 小 于 
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F — Stay 俏 的 变量 中 F — Statistic 值 最 小 者 ,直至 不 能 剔除 为 止 。 

逐步 法 中 ,可 视 做 上 述 两 种 方法 相 结 合 应 用 的 方法 。 先 接 前 进 法 ,逐个 引 人 自 变量 ,每 
引入 一 个 自 变量 后 , 按 后 退 法 计算 各 自 变量 的 下 -Statistic 值 ,使 之 满足 下- Statistic > F — 
Stay, AWF AREH F- Statistic 秆 最 小 者 。 最 终归 方程 中 ,所 有 自 变 量 必 须 同 时 满足 
F — Statisüc KF F — Enter Ж F — Stay 的 界定 值 。 

多 元 同 归 分 析 中 ,可 将 各 混 林 因素 和 相互 作用 作为 单独 的 自 变 量 引 入 回归 方 程 , 然 后 进 
行 显著 性 检验 (可 用 方差 分 析 比 较 增 加 变量 后 的 回归 方程 与 未 增加 变量 的 回归 方程 的 卫 
值 ) ,或 利用 逐步 回归 分 析 方 法 惧 定 是 否 噜 除 该 自 变 量 。 


【多 元 线性 回归 分 析 应 用 举例 ] 
表 10 -13 是 一 项 有 关 收 篇 压 (SBP) 与 相对 体重 (RF) 的 相关 性 调查 结果 ,需要 建立 一 
个 多 元 回归 模型 反应 SBP( ATE) RW 和 性 别 的 关系 。 


表 10-13 相对 体重 (RW%} 与 收缩 压 (SBP,mmHg) 的 关联 性 调查 结果 


REW% SBPz165 SBP « 165 合计 
22130 63 59 122 

< 130 248 1 025 1273 
合计 311 1 084 1 395 


利用 SPSS 或 SAS 软件 得 到 的 回归 方程 为 : 
y =0. 159 58 +0. 070 75x, +0. 299 98x, 
其 中 , 当 5ВР 2165 时 ,y=1, 否 则 y=0; 
d dc ux, md ,着 为 胃 性 ,x =0 (х 20.524 731 2); 
м RWz130,x, 21, M| z, =0 (x, 15138 =0. 087 455 2), 
(1) 根据 上 述 多 元 回归 方程 和 各 自 变 量 的 均 数 ,可 得 到 SBPz 165 的 流行 率 为 ; 
y 20.159 58 40,070 75 x 0. 524 731 2 +0. 299 98 х0. 087 455 2 =0. 2229 3 
这 与 根据 表 10 - 13 直接 计算 的 SBPz:165 的 流行 率 完全 相同 (3117139 5 20.222 93), 
(2) ФЕЯ ВЕ SBP=165 的 流行 率 分 别 为 : 
уын = 0. 159 58 +0. 299 98 х0. 087 455 2 =0. 185 8 
yg =0. 159 58 +0. 070 75 +0. 299 98 х0. 087 455 2 =0. 256 56 
ВП SBP165 的 流行 率 高 于 男性 ,其 相对 风险 率 RR 为 :0.256 56/0. 185 8 =1.38。 
(3) 不 同 RW 水 平 SBP2165 的 流行 率 分 别 为 (性 别 已 校正 ) : 
Yaran = 0. 159 58 +0. 070 75 х0. 524 7312 +0. 299 98 =0. 496 68 
Yuw io = Ü. 159 58 +0. 070 75 х0. 524 7312 =0. 196 7 
BEETESIE RW 2130 与 RW «130 相 比 较 , 高 SBP 的 相对 风险 率 RR 为 :0. 496 68/ 
0.196 7 =2.525, 这 与 校正 前 根据 表 10 - 13 中 资料 , 按 式 10 - 19 的 直接 计算 结果 : (63 x 
1 2733/(248 x122) =2.65 有 所 区 别 。 由 此 可 见 , 多 元 回归 方程 可 直接 根据 月 变量 预测 央 
变量 的 变化 ,并 对 混杂 因素 进行 校正 。 
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10.5.4 Logistic ET” 

10.5.4.1 f € Logistic 回归 

Logistic [А] ( Logistic regression) ЖЕ [el 4 hir PAS hipaka 78, 遵循 回归 分 析 的 基本 
规律 ,适用 于 离散 变量 的 分 析 ,主要 用 来 预测 发 病 率 和 几率 比值 的 计算 。 其 简单 回归 方程 可 
FORN: 


InOdds = n[ P/(1 - P3] == +BX (公式 10 — 44) 

LÈT, P 表示 发 病 率 ,a 表示 人 群 或 样本 中 的 发 病 风 险 ,B8 表示 每 改变 一 个 单位 时 

的 InOR Ë , EI] OR 等 于 B 的 反对 数值 @。 例 如 表 10 — 14 为 血清 胆 固 醉 水 平 与 冠 心病 相关 
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310-14 血清 胆固醇 (Chol}) 与 冠 心 病 (CHD) 的 关联 性 调查 结果 


Chol | CHD 患者 eu 
( mmol/L) 是 否 

=6.72 91 295 386 
«6.72 177 800 977 
合计 268 1095 1363 


根据 上 表 资 料 , 在 Logistic 2ptrrP 3g X Bg xn Е: 

U Chol z6. 72 mmol/L, X = 1, ÆI] X 20. 

通过 SAS 软件 得 到 的 Logistic 回归 方程 为 :InOdds = -1.507 +0.3298。 以 下 比较 儿 种 
方法 得 天 的 OR f. 

CL) 根据 对 站 的 定义 和 Logistic 方程 计算 OR: 

34 X =1 Bf 10405 = -1.507 +0.329 = -1.178,0R,,,, =e ^"^ 20. 308; 

`4 X 20 Hj,lnOdds- -1.507 +0 = -1.507,0R,,,, =e ^" 20.222; 

OR = OR,, ;,/ OR, nm 20. 308/0. 222 21.39, 

(2) IS Logistic 方程 中 的 B 值 计算 OR; 

OR =ef =e% — 1.39, 

(3) f BE 10 -22 计算 OR; 

OR = (91 x800)/(295 x177) 21.39, 

同样 ,利用 Logistic 方程 可 以 计算 出 CHD 的 发 病 率 ， 

M X-E BE,P/C(L- P) =0. 308,9 Psn =0. 235; 

`4 Y =0 PF,P/(1 - Р) =0. 222, Р. =0.181。 

利用 表 10 — 14 资料 ,可 得 到 相同 结果 ,读者 可 月 行 验证 。 

10.5.4.2 多 元 Logistic 回归 

对 于 多 元 Logistic 回归 分 析 ,其 回归 方程 可 表示 为 ， 


InOdds 2 In[ P/(1 - P)] =a + XB.X, (公式 10 - 45) 
P=1/[1 +e ^(**38*9] (公式 10 —46) 


同样 可 利用 公式 10 -45 38 10 -46 分 别 计算 出 各 OR 值 .总 OR 值 和 发 病 率 P。 上 述 公 
式 中 记 表 示 在 其 他 变量 周 定 条 件 下 , 当 凶 每 改变 1 个 单位 时 ,对 InOdds 的 改变 量 ; 如 果 改 变 
10 个 单位 ,对 OR 的 变化 是 e™™。 如 果 两 个 变量 同时 改变 ,而 其 余 变 量 相 同 , 这 时 对 OR 的 变 
化 等 于 P^, FE ОВ 的 置信 区 向 的 计算 ,可 根据 公式 10 -47。 


95% CL (InOR) =InOR +1.96SEUInOR) =8+1.96SE(8) (公式 10 – 47) 


Logistie 回 妇 分 析 中 ,对 于 两 分 变量 (dichotomous variable) ,通常 定义 1 = “是 ”,0 = 
“ 否 ”。 对 于 名 阶 变量 或 连续 变量 , 须 转 挽 为 亚 变 量 ( dummy variable) 。 如 对 于 收缩 上 变量 
(SBP) ,可 拆 分 为 165 ‚140 等 不 同 界 值 ,因此 得 到 不 同 的 SBP 变量 ， 

i SRP = 165 mmHg, 则 SBPI =1 ,否则 SBPI =0; 

> SEP :>=140 但 <165mmHg ll) SBP2 = 1 ,否则 SBP2 =0; 

当 SBP < 140 mmHg, M) SBP3 =1 ,和 咨 则 SBP3 =0。 

对 村 混杂 因素 或 相 车 作用 ,同样 可 以 利用 多元 Logistic 阿 归 进行 剔除 或 引信。 判断 基 变 
量 是 否 引 入 的 方法 是 根据 -2Log 似 然 性 计算 结果 {SAS 软件 白 动 给 出 ) ,两 个 不 同方 程 中 
-2Log 似 然 性 的 差 值 即 为 交 值 ,自由 麻 等 于 不 同 回归 方程 中 上 变量 数 日 之 差 。 这 种 校正 方 
法 较 10.4.5 节 中 所 述 的 几率 比值 校正 方法 要 简便 ,尤其 是 考虑 老 个 混杂 因素 或 相互 作用 的 
情况 。 

【多 元 Logistic 回归 分 析 应 用 举例 ] 

例如 ,通过 18 年 连续 观察 1 363 例 研究 对 象 , 以 分 析 冠 心病 (CHD) 发 病 率 与 收缩 还 
(SBP) .血清 胆固醇 (Chol) ,年 龄 .性别 的 关系 .利用 SAS 软件 得 到 以 下 Logistic 10377 E : 

P(CHD) =y=111 +expf —( —8. 339 8 +0. 051 бАре +1. 013 2Sex +0. 016 8SBP + 
0. 004 76Chol) ] ! | 

其 中 , 当 诊 断 为 秆 心病 时 ,y 21,888 y 20; 

Аре 表示 实际 年 龄 ，; 

ЖН ВЕ Sex =1 ,女性 Sex 20; 

SEP 以 实测 mmHg (Ein 

Chol 以 实测 血清 胆固醇 浓度 (mg/dL) 表示 。 

(1) 利用 标准 化 BB. 值 (以 B* AER B. + =B; SD ) ,分 析 其 中 对 CHD 发 病 率 影响 最 大 
的 自 变量 。SAS ЭТАН ЖЕ МЕ 10 -15。 


a A ie Lu p 


510-15 BB 值 标准 化 有 有关 统计 量 表 


E(X) В, SECB;) SD( X.) B, * 排序 
dun -8.339 8 0.950 7 - - B 
Age 0.051 6 0.015 2 4, 784.2 0.246 9 3 
Sex 1.013 2 0.152 9 0. 499 4 0.506 0 1 
SBP 0.016 8 0. 002 46 27.808 5 0.467 2 2 
Chol 0. 004 76 0.001 57 46.352 8 0.220 6 4 


X 10 —15 h B, = ci ERRARE Е u E — T HE ЛЕШ, CHD 的 InOdds 值 改变 大 小 。 
结果 表明 ,该 组 变量 中 ,Sex 变量 对 发 病 风 险 影响 最 大 ,而 Chol 影响 最 小 。 

(2) 计算 一 名 60 $ Hc ,5ВР = 185 mmHg, Chol = 277 mg/dL, H. 18 年 期 CHD 的 发 生 
RAED? 将 有 关 数 值 代 人 上 述 加 归 方 程 中 ; 

P(CHD) 21/1[1 *exp- ( – 8. 339 8 +0. 051 6 x60 +1. 013 2 х0 +0. 016 8 x 185 + 
0. 004 76 x277) 11 

=1/11 +ехр(0. 817 3) 1 20.306 

同样 参数 值 的 男性 ,其 预期 CHD 发 病 风险 率 为 0. 549 (ЕАУ ATR) , 较 女 性 的 发 
病 风 险 明 显 增加 。 

(3) 如 果 Sex, Age, Chol 3 个 变量 固定 ,SBP 221828 25 mmHg, Ж OR 值 为 多 少 ? 

OR = е? 0168 x25 =e” = 1. 52 

(4) 为 了 分 析 Sex 和 Age ДЕЕ o B RATE DER ЛЕ SAS 分 析 得 到 表 10 - 16 
数据 (各 自 变量 的 定义 同上 )。 

通过 比较 模型 2 和 模型 4 的 -21Log 似 然 性 数值 差 :1 301.761 -1 243. 516 = 58.245, Ë 
由 度 =4 -2=2 ow 值 =5.99, 夫 此 P<0.05。 即 认为 Sex 和 Age 是 混杂 因素 。 


#10-16 不 周 回归 模型 的 回归 系数 及 —2/од 似 然 性 数值 


ETHE) 模型 ! 模型 2 模型 3 模型 4 

RE -3,769 1 -4.338 2 -6.8017 -8.339 8 

SRP 0.015 6 0.015 1 0.013 9 0.016 9 

Chol 0.002 71 0. 002 49 0. 004 76 
Ape 0.0512 0.051 6 

Sex 1.013 2 

- 2Log 似 然 性 1 305. 048 1 301.761 1 289.956 1 243.516 


最 后 ,我 们 将 几 种 常用 的 多 元 分 析 方 法 的 比较 总 结 如 表 10 - 17。 


#10-17 几 种 常见 的 多 元 分 析 方 法 的 比较 


| 变量 交友 
分 析 方 法 REE BER 分 析 目 的 | | 
方差 分 析 . . А ае 
(ANOVA) 连续 变量 ЛЕЕ 描述 组 间 变 异 是 否 具有 总 著 性 
协 方差 分 析 连续 变量 ЕЛЕН EE RE) TE AS TELLS USC REUS F. , Hf 
(ANCOVA) 连续 变量 (混杂 内 束 ) 变异 的 差异 显著 性 
TE yi pay =a z 3 агр , . 
A CERE LI 连续 变量 жылш ———— 
实际 应 用 中 也 可 为 离散 关联 强度 与 方向 
变量 或 分 类 变量 | 
TATY ^ г. 
多 元 Logistic 回归 k ki 预测 和 找 述 - .个 或 多 个 自 变 量 与 
JE PE ORUM) CE MERE BU SS Ж 


多 元 回归 分 析 中 ,通常 采用 Hosmer - Lemeshow 的 策略 ,首先 进行 单 变 旺 分 析 d БИМ 
变量 相关 性 有 显著 意义 的 变量 ( 设 定 P «0.25 为 选择 标准 )。 伏 后 将 所 有 单 变量 分 析 中 选 
定 的 变量 代入 多 元 线性 回归 或 多 元 Logistic 回归 模型 中 ,用 后 退 法 建立 初步 多 元 同 归 模 型 。 
引入 所 有 可 能 的 相互 作用 变量 ,再 用 后 退 法 筛选 变量 ,得 到 最 后 的 多 元 回归 模型 。 从 统计 学 
和 生物 学 等 角度 评价 回归 模型 中 的 各 自 变 量 或 相互 作用 变量 的 意义 。 相 互 作用 变量 通常 在 
以 下 情形 时 需要 考 虚 : 治 疗 方法 与 疾病 严重 度 . 年 龄 与 性 别 或 种 族 之 闻 .年 龄 与 疾病 类 型 . 测 
定时 受 试 者 的 状况 与 测定 方法 .日期 与 治疗 方法 ,不 同 症状 之 间 等 。- 个 合适 的 多 元 回归 模 
型 尚 有 待 于 不 同 试验 的 验证 。 


10.6 常用 统计 软件 介绍 


10.6.1 SPSS 软件 站 

SPSS 软件 是 由 美国 SPSS 28] (http://www. spss, com) 设计 的 统计 专用 软件 。SPSS 公 
司 在 中 国 也 设立 了 分 公司 ,日 前 市 面 土 已 有 中 文 版 SPSS 软件 和 操作 说 明 书 。 这 里 仅 简单 介 
绍 SPSS 的 基本 合用 方法 , 读 省 需要 在 购买 种 安装 软件 后 ,参考 操作 手册 或 软件 的 帮助 菜单 ， 
结合 具体 资料 ,反复 练习 ,才能 熟练 掌握 。 

SPSS 软件 可 在 Windows 环境 下 操作 ,也 可 在 Unix 或 其 他 操 必 环境 中 运行 。 这 里 仪 以 
Windows 支持 下 的 SPSS 10.0 英文 版 软件 为 例 。 启动 SPSS 软件 -一 般 在 开始 菜单 的 运行 程 
序 中 点 击 进入 ,直接 进 到 数据 编辑 器 (Data Editor) 视窗 。 即 可 按 读者 要 求 输入 数据 ,存档 建 
立 相 应 的 数据 文件 ,也 可 打 和 于 已 有 的 数据 文件 。 数 据 文件 的 扩展 名 为 sav。 数 据 编辑 器 的 最 
上 面 -一行 为 变量 名 ,可 从 左下 方 的 Data View 窗口 切换 到 Variable View 窗口 ,然后 定义 各 变 
量 的 相关 参数 。 咕 到 Data View 窗口 在 各 栏 中 输入 相应 数据 。 如 须 对 原始 数据 进行 转 核 ， 
可 进 和 人 “转换 {Transforn)” 荣 单 作 适 当 转 换 ,或 产生 新 的 变量 。 另 外 SPSS 也 可 读 取 Lotus, 


Excel 等 数据 处 理 器 存储 的 文档 ,这 也 需要 利用 合适 的 命令 或 利用 “Tmport Wizard” 转换 为 
SPSS 可 读 文 件 。 

数据 输入 后 ,可 在 "分析 【Analyze) “菜单 中 作 基 本 统计 量 .相关 .回归 、 聚 类 . 非 参 数 统 
H .年 在 分 析 等 。 逐 级 进 和 人 各 统计 方法 的 子 革 单 进行 所 需 本 的 统计 分 析 。 统 计 分 析 前 ,往往 
跳出 一 某 单 ,需要 选择 所 分 析 的 变量 ,设置 相应 的 统计 参数 ,并 在 各 高 级 选项 设置 作 儿 方 法 . 
输出 参数 等 。 任 何 情况 下 , 若 对 某 种 用 法 有 疑问 ,可 随时 点 击 帮 助 菜单 ,进行 求助 。 程 序 运 
行 结束 后 ,会 出 现 输出 结果 的 显示 屏 , 可 探访 者 希 要 打印 所 需 贞 倘 或 对 输出 结果 存档 。 输 市 
显示 中 ,左边 框 为 目录 ,方便 用 户 查 阅 所 需 结果 。 

SPSS 的 另 -常用 业 单 是 “图 形 ( Graph) "菜单 ,可 进行 各 种 不 同 的 图 形 处 理 。SPSS 使 用 
结束 后 ,点击 Exit 退出 该 程序 。 

相对 SAS 软件 而 言 ,SPSS 软件 在 学 习 使 用 上 要 简便 和 直观 , 称 之 为 user - friendly, ll 
何 用 好 SPSS 软件 , 除 熟 悉 其 操作 方法 外 ,关键 还 是 统计 学 的 基础 。SPSS 软件 在 图 形 处 理 上 
也 较 SAS 软件 方便 。 究 竟 合 用 SPSS 好 ,还 是 SAS 好 ,需要 根据 用 户 的 喜好 ,统计 类 型 .软件 
购 冰 能力 等 进行 选用 。 


10.6.2 SAS dx 4E" 

SAS 软件 是 美国 SAS 软件 公司 设计 出 的 大 型 统计 软件 ,在 生物 统计 .会 共 卫 生 .金融 
业 .保险 业 .市 场 营 销 等 领域 应 用 都 非常 广泛 。 这 是 - ` 个 非常 齐全 的 软件 ,要 完全 熟悉 SAS 
的 所 有 操作 方法 ,需要 花 时 间 济 览 几 英寸 厚 的 操作 指南 。 这 对 大 多数 用 户 而 言 oe TS NIH 
EARE. TRARRE ,学 到 哪 ,特别 是 借助 SAS 的 帮助 某 单 ДИ ЛУ ДУ Ж, БУРЕ СЕ ЯК ЖП 
离 不 开 SAS 了 ( 当然 不 是 SARSI), 

与 SPSS - - 样 ,SAS Bin] i£ Windows 支持 下 运行 ,也 可 在 Unix 等 环境 中 适 行 。 这 里 以 
Unix 支持 下 的 SAS 8.0 英文 版 为 鲍 , 对 其 基本 操作 和 应 用 技巧 作 以 简单 介绍 。 

SAS 的 所 动 是 在 开始 业 单 的 运行 程序 中 点 击 进入 。 会 出 现 玫 个 不 同 的 窗口 ,用 户 按 自 
己 喜 好 作 层 王 或 平 铺 排 列 。 这 些 窗口 包括 穆 序 编辑 器 ( program. editor) , H 3& (log) .输出 
(output) 等。 其 某 单 功能 相对 简单 ,易于 掌握 。SAS 应 用 中 最 关键 的 步 双 当 然 是 编写 程序 。 
这 需要 在 熟悉 资料 类 型 的 基础 上 ,根据 统计 只 的 ,利用 SAS 语言 编写 ( 须 掌握 基本 的 SAS 语 
言语 法 和 句法 ) 。 

SAS 编程 中 需 旨 注意 以 下 几 个 问题 : 

(1)SAS 程序 运行 中 , 与 字母 大 小 写 和 空格 数 无 关 , 是 否 使 用 纯粹 为 了 程序 直观 和 根 
据 个 人 喜好 。 

(2)8AS 程序 因 句 法 错误 ,可 导致 运行 失败 。 随 时 检查 日 志 中 的 出 错 信 息 . 有 助 于 找到 
错误 之 处 。 最 常见 的 错误 是 分 号 ;的 使 用 (不 该 用 或 没有 用 ) ,其 次 是 误 将 单 引号 打 成 双 
引号 ,再 次 是 忘 了 如 "RUN ” 语 扣 或 空格 分 隔 , 还 有 就 是 在 变量 名 之 间 未 用 空格 分 开 。 

C3) 小 的 SAS 数据 文件 的 产生 可 用 SAS 编写 ,大 数据 更 常用 的 是 由 Excel 或 Text 等 文 
件 转换 而 来 。 

以 下 先 以 -- 个 练习 题 为 例 , 列 举 SAS 程序 编写 .运行 日 志和 相应 输出 结果 ,说 明 其 基本 
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应 用 过 程 ,括号 内 的 中 文 为 解释 性 加 注 。 


SAS LOG of EXAM 1 (SAS 日 志 
1 
dm output; clear; log; clear; (ВРИЕ) 
2 libname Examl 7home/grad/rpn/wli8 { 2038 Е libname 名 称 如 Examl 及 其 相应 路 径 》 
NOTE ; Libref ЕХАМ1 was successfully assigned as follows:《【 运 行 状 况 ) 
Engine: V8 
Physical Name: /home/grad/rpn/wh8 
DATA ONE; (编辑 新 的 工作 数据 文件 WORK. ONE) 
set Examl. kram30;(〔 源 数据 文件 Examl. Fram30) 
TITLE FRAMINGHAM HEART STUDY — 30 YEAR FOLLOWUP; (加 标题 1) 
TITLE2 SPM 506 EXAM 1 DATA SET; 【加 标题 2) 
NOTE; There were 5209 observations read from the data ser EXAMI. FRAM30. 
NOTE: The data set WORK. ONE has 5209 observations and 5 variables. 
NOTE: DATA statement used; 


real time 2.49 seconds 


m — + w 


cpu time 0. 24 seconds 
7 PROC CONTENTS; (查看 内 容 ) 
8 RUN;《〈 程 序 运 行 傅 令 ) 
NOTE: PROCEDURE CONTENTS used: 
real time 0. 86 seconds 
ери time 0.07 seconds 
9 PROC FREQ; (查看 频数 ) 
10 TABLES SEX CHD; (iih SEX, CHD 两 个 变量 的 频数 结果 ) 
11 RUN; (程序 运行 命令 ) 
NOTE: There were 5209 observations read from the data set WORK. ONE. 
NOTE: PROCEDURE FREQ used: 
real time 0.91 seconds 
сри time 0.04 seconds 
12 PROC MEANS N NMISS MEAN MIN МАХ; (计算 平均 数 ; 列 出 样本 数 N, 缺损 样本 数 ， 
平均 数 , 最 小 值 , 最 大 值 ) 
13 VAR АСХІ BMI; (变量 AGX1 和 BMI) 
14 RUN; 《程序 运行 命令 ) 
NOTE: There were 5209 observations read from the data set WORK. ONE. 
NOTE: PROCEDURE MEANS used: 
real time 0.87 seconds 
epu time 0. 05 seconds 


— ВВА ЗЕ E 


DATA Two; (编辑 新 的 工作 数据 文件 WORK. TWO) 

16 set Examl. Fram30;( 源 数据 文件 Examl. Fram30) 

17. * Definition of BMI groups;《【《 和 定义 新 的 分 组 蛮 量 ВМЇ!) 

18 IF BMI . Then delete; (^. "表示 数据 缺失 》 

19 IF BMI > = 30 THEN BMI = 1; 

20 IF BMI > = 25 and BMI < 30 THEN BMH = 2; 

21 IF BMI < 25 Then ВМП = 3; 

NOTE: There were 5209 observations read from the data sei EXAMI. FRAM30. 
NOTE: The data set WORK. TWO has 5199 observations and 6 variables. 
NOTE: DATA statement used: 


real time 1. 55 seconds 


epu time 0. 18 seconds 
22 proc format; (格式 命令 ) 
23 value bmilfmt 1 2^» 2307 2-25-29' 3z'«255 
NOTE; Format ВМП ЕМТ has been output. 
NOTE. PROCEDURE FORMAT used 
real time 2. 06 seconds - 
cpu time 0. 04. seconds 
24 proe freq; (频数 统计 ~ 列表) 
25 table bmil/nopercent norow nocol; 《数据 表格 格式 } 
26 FORMAT BMII bmilfmt. ; (排列 方式 ,注意 bmilfmt 后 有 一 圆 点 ) 
27 run; 【程序 运行 命令 ) 
NOTE: There were 5199 observations read from the data set WORK. TWO. 
NOTE. PROCEDURE FREQ used; 
real time 0. 47 seconds 


cpu time 0.03 seconds 


28 DATA THREE; (编辑 新 的 工作 数据 文件 WORK. THREE) 
29 set TWO;( 源 数据 交尾 为 WORK. TWO) 

30 = Definition of СНР” groups; (定义 新 的 CHD 变量 ) 

31 IF CHD = 1 Then CHD1 = 1; 

32 IF CHD > 1 Then CHDI = 2; 

33 IF CHD = 0 Then CHDI = 3; 

34 IF CHDI = 1 Then CHD2 
35 IF CHDI = 2 Then CHI2 = 1; 

36 ТЕ CHDI = 3 Then CHD2 = 2; 

37 = Definition of new BMI variable; (定义 新 的 BMI ЛЕШ) 


1 
t 
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38 ТЕ ВМИ =1 THEN ВМІ2 =1; 
39 IF BMH -2 THEN delete; 
40 IF BMI] -3 THEN EM -2; 
NOTE: There were 5199 observations read from the data ses WORK. TWO. 
NOTE: The data set WORK. THREE has 3032 observations and 9 variables. 
NOTE: DATA statement used: 
real time 2.05 seconds 
opa time 0. 23 seconds 
4] proc format; {格式 命令 ) 
42 value chdlfmt 1 = prevalent” 2 = incident” 3 = negative 
NOTE: Format CHDIFMT has been output. 
43 value chd2fmt 1 = yes” 2 = по“ 
NOTE: Format CHD2FMT has been output. 
44 proc format; 
45 value bmi2fmt 1 = °> =30° 22'«255 
NOTE; Format ВМІ2ЕМТ has been output. 
NOTE: PROCEDURE FORMAT used: 
rea] time 1. 73 seconds 
cpu time 0. 00 seconds 
46 proc freq; 
47 tables BMI2 * CHD2/nopercent nocol norow CMH; (几率 比值 运算 ) 
48 FORMAT BMD bmi2fmt. CHD2 chd2Imt. ; (ЖН, TE P a ВИЕ) 
40 run; 
NOTE: There were 3032 observations read from the data set WORK. THREE. 
NOTE: PROCEDURE FREQ used: 
real time 1. 23 seconds 


cpu time 0. 06 seconds 
SAS OUTPUT of EXAM 1 (SAS 运算 结果 ) 
FRAMINGHAM HEART STUDY - 30 YEAR FOLLOWUP 
SPM 506 EXAM 1 DATA SET 
10:27 Saturday, February 22, 2003 


The CONTENTS Procedure 


Data Set Name: WORK. ONE Observations : 5209 
Member Type: DATA Variables ; 5 


———————— M X PME ES £ fa 学 时 Ж 


үң Indexes : 0 
Created: 10:31 Saturday, February 22, 2003 Observation Length: 40 
Last Modified. 10:31 Saturday, February 22, 2003 Deleted Observations ; 0 


Engine: 


Protection : Compressed : NO 
Data Set Type: Sorted : NO 
Label : 


The CONTENTS Procedure 


{数据 文件 内 容 } 
-一 一 一 一 Alphabetic List of Variables and Attributes - — — — — 


# Variable Туре Геп Pos Lahel 


1 AGXI Num 8 0 AGE, EXAM 1 
5 BMI Num 8 32 BODY MASS INDEX( kg/m * *2), Exam 1 
2 CHD Num 8 8 FIRST EVIDENCE OF CHD 
3 DTH Num 8 16 DEATH 
4 SEX Num 8 24 SEX 
Тре FREQ Procedure 
(频数 统计 ) 
SEX 


SEX Frequency Percent Frequency Cumulative Percent 


— — — = = — = = — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — 


2336 44.85 2336 44. 85 
2 2873 55.15 5209 100.00 


FIRST EVIDENCE OF CHD 


CHD Frequency Percent Frequency Cumulative Percent 
0 3760 72.18 3760 72.18 
1 82 1.57 3842 73.16 
2 59 1.13 3901 74.89 
了 56 1.08 3957 75.96 
4 76 1.46 4033 77.42 
5 66 1.27 4099 78.69 
6 85 1.63 4184 80.32 
7 81 1.56 4265 81.88 


giog Stay ааа 


8 103 1.98 4368 83, 85 
9 92 1.77 4460 85.62 
10 105 2.02 4565 87.64 
11 139 2.67 4704 90. 31 
12 120 2.30 4824 92.61 
13 95 1.82 4919 94. 45 
14 95 1.82 5014 96. 26 
15 90 1.73 5104 97.98 
16 105 2.02 5209 100.00 


The FREQ Procedure 
(频数 统计 表 》 
Table of BMI2 by CHD2 


BMD CHD2 

Frequenc y lyes ino | Total 
一 一 一 二 一 一 一 + 一 一 一 十 

> =30 | 2701 470 1 740 
-一 -+ 一 一 -+ 一 一 一 + 

<25 | 465 | 1827 12292 
-一 一 十 一 一 一 十 一 一 一 十 

Total 735 2297 3032 


The FREQ Procedure 
Summary Statistics for BME by CHD2 
Cochran — Mantel ~ Haenszel Statistics ( Based on Table Scores) 


Statistice Alternative Hypothesis DF Value Prob 


= = — — — — — -— — — — — — — — — — — — —= > — — — — — — — -— — - — — — = — — a — = 


1 Nonzero Correlation 1 79,8978 «0.0001 
2 Row Mean Scores Differ 1 79.8978 «0.0001 
3 General Association 1 79.8978 <0.0001【 显 著 性 检验 ) 


The FREQ Procedure 
Summary Statistics for BMI2 by CHD2 
Estimates of the Common Relative Risk ( Rowl/Row2) 


Type of Study Method Value 95% Confidence Limits 
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一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


Case — Control Mantel - Haenszel 2.2571 1.8834 2.7050 (OR 结果 1) 
(Odds Ratio) Logit 2.2571 1.8834 2.7050 (OR 结果 2) 


Cohort Mantel — Haenszel 1. 7984 1. 5871 2.0379 (КК 结果 ) 
(Coll Risk? Гови 1.7984 1. 5871 2. 0379 


Cohort Mantel - Haenszel 0. 7968 0. 7516 0. 8447 

(Col2 Risk) Logit 0. 7968 0, 7516 0. 8447 

(备注 : OR 结果 1 是 用 Mantel - Haenszel 法 , 105 10.4.5. 1 $5; OR 结果 2 是 用 Wod 法 ， 
FER 10.4.5.2 W) 


以 上 例子 中 包括 最 基本 的 统计 分 析 方 法 ,如 基本 统计 基 分 析 BR 与 OR 分 析 等 , КШ 
将 其 他 一 些 关 联 或 回归 分 析 中 常用 的 SAS 统计 命令 列 出 , 供 参 考 。 

(1) ОК 或 RR 分 析 中 须 对 混杂 困 素 进行 校正 : 

proc freq; tables sex + аде * sbp + CHD/CMH alpha =0.05; 

此 命令 用 于 分 析 shp 与 СНО 关联 分 析 时 ,计算 校正 age 和 sex 后 的 OR 或 RR 值 。 

(2) 线 性 祖 关 导 回 归 ， 

proc glm; model y =x} x234【 协 方差 分 析 ) 

proc reg simple; model у = age x1 x2 age xl age x2; plotr. * p. ‚[ 包 元 线性 回归 中 考虑 
混杂 因素 和 相互 作用 变量 ape xl 和 age_ 妆 ,同时 对 剩余 值 { 纵 轴 ) 与 预期 值 ( 横 输 ? 作 加 ] 

(3) Logistic 回归 ; 

proc logistic; model y = age sex sbp chol; (28 y =0,yes; у = Ё, no) 

proc logistic decending; model у = age sex sbp chol; (34 y 21, yes; y =0, no) 

proc logistic simple; model y = age sex sbp chol/LACKFIT; (жн pr ETE И 3 A (Ë 53 Tn 
期 值 的 比较 ,以 评价 回归 模型 的 好 坏 ) 
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